您现在的位置: 首 页 >> 法律论文 >> Lucene构建条件下的校园网黄页系统研究与实现

Lucene构建条件下的校园网黄页系统研究与实现

作者:政治教育
出处:www.lunrr.com
时间:2019-10-12

简介

随着互联网的飞速发展,信息爆炸的时代已经到来,人们每天都要面对无数的互联网信息和数据。如何过滤和筛选这些数据,提取真实有用的信息是非常困难的,尤其是在没有一套有效的标准的情况下。传统搜索引擎的出现在很大程度上解决了这些问题,使得检索信息变得更加容易。然而,当这样的搜索引擎在特定范围内使用时,如校园网,其缺点是显而易见的,而且检索效率和准确率都不够。将起源于电信行业的黄页系统引入校园网,具有非常丰富的号码检索、信息检索、地址检索等功能。许多学校已经或正在准备建立自己的校园黄页系统。

在分析了搜索引擎的工作原理和黄页系统结构的基础上,利用开源的lucene工具包构建了适合校园网的基础教育黄页系统。可以满足人们对校园网教育资源的检索。需求。

1校园黄页系统概述和Lucene

1.1黄页系统开发及校园网黄页系统概述

互联网黄页只是一种电话簿,用于将传统的纸质黄页分发到互联网上,并以互联网为载体进行在线分发、分发和应用。随着科技的发展,黄页除了提供基本的电话号码查询服务外,还可以提供其他信息查询,包括范围更广、内容更丰富的服务。目前有三种形式,即电信等ISP部门推出的黄页、门户网站黄页频道、专业网络黄页服务机构。校园网黄页系统是第三种形式。

校园网黄页系统是一个集成系统,可以自动生成教育资源黄页目录并在此基础上为用户提供服务。与传统的黄页系统相比,它具有专业化强,覆盖范围小,服务对象集中的特点。通过快速收集校园网络中的教育资源,并自动对信息进行分类和提取,形成一个黄页目录,然后为需要它的用户提供信息检索和查询服务。目前,黄页系统在国内外已经发展得很好。雅虎,拿骚图书馆和其他网站都提供了基于目录服务的黄页查询系统,这在访问和使用方面都非常重要。国内大学,特别是图书馆,已经建立或正在建立类似的系统。其中,南京师范大学黄页查询系统非常有代表性。

1.2 Lucene基本知识和工具包内容

Lucene是Apache Software Foundation的Jakarta项目组的子项目。它是使用Java编程语言开发的。这是一个实现全文本搜索引擎工具的开源项目。它可以轻松地嵌入各种应用程序中,以实现针对特定范围和应用程序的资源索引和检索功能。与其他搜索引擎相比,Lucene具有以下特征:跨平台,块索引,面向对象,可伸缩且功能强大的查询功能。因此,使用Lucene构建专业的检索系统将变得越来越普遍。

高校可以通过扩展程序来开发Lucene,构建适合我们学校并嵌入黄页查询的专业网络搜索引擎。

2校园黄页系统技术与功能分析

2.1校园黄页系统功能

2.1.1信息提取

信息提取是指从各种网站或应用系统中提取相关信息,例如电话号码,工作地点或某些类型的教学资源。通常,在定义特征图案之后,执行提取以获得要提取的绝对信息块。经过这条路径,信息提取工作将成为有关内部信息项的信息的集合。

2.1.2信息分类

从源位置提取信息之后,还将对其进行分类,并且分类标准也应尽可能精细。例如,提取的电话号码可以分为固定电话和移动电话,而固定电话分为本地电话和长途电话,因此更加精细的划分很快将为检索提供很大的便利。另外,考虑到不同应用系统和信息共享的差异,层次分类是一种相对标准的方法。它根据标准结构元素的有效范围将它们划分为不同的级别。

2.1.3信息检索

信息检索是黄页系统的最重要功能。它可以对上面提取和分类的信息执行一次和两次检索。搜索还可以确定不同的搜索规则,包括搜索深度,搜索范围和更新频率。

2.1.4结果显示

黄页系统以类似于门户网站系统的方式将结果呈现给用户。在这里,我们主要需要考虑搜索结果的显示速度,并提供一个更加用户友好的搜索界面,可以使用更成熟的J2EE架构来开发该界面。

2.2校园黄页系统中使用的技术

要实现此系统,您需要使用以下关键技术:

2.2.1适用于基础教育领域的网站信息提取技术

这里使用信息提取技术,包括元数据信息提取技术和Heritrix技术。网站信息提取技术是教育网站黄页系统中的一项关键技术。网站的介绍信息可以帮助用户方便快捷地了解网站资源的概况,无需访问所有搜索结果即可直接判断其有效性。网站摘要包含描述网站的核心信息。该网站不仅可以作为网站的通用版本供用户直接查看,还可以在用户检索模块中直接建立索引,不仅可以减少适当检索的数据量,而且可以提高检索效率。

Web爬网程序Heritrix技术是一种可以自动提取网页的程序。它从网站下载页面以搜索程序。搜寻任务包含许多属性。创建任务有很多方法。最简单的方法是根据默认顺序进行配置。 XM1。在内存中,顺序使用Craw 10 rder类表示。 Craw 10 rder继承了与属性设置有关的一系列基类。

2.2.2网站逐步分类技术

网站分类是建立专业网站黄页系统的关键链接。用户只有准确识别与主题相关的网站并过滤掉与主题无关的网站,并正确判断有效资源的具体类别,用户才能准确,方便地在相应类别中找到所需的资源。本章分析了目前一些网站分类技术的优缺点,并结合了基础教育网站的基本特点,提出了有针对性的渐进式网站分类方法,以准确有效地识别基础教育网站的主题。

2.3.3 Lucene索引和检索技术

lucene的系统结构采用分层的方式,模块之间基于协议进行交互,形成具有松耦合特性的结构,大大提高了系统的适应性。lucene主要由三部分组成:基础架构封装、索引核心和外部api。核心源代码主要是分析、索引和搜索。搜索核心api索引搜索器通过使用搜索方法从索引中获取所需的内容。父类searcher中存在许多重载的搜索方法,它们本身也有一些重载的搜索方法。searcher类实现了一个可搜索的接口,任何类都可以检索它,只要它具有它定义的功能。

3基于Lucene的校园黄页系统实现

3.1基于网络爬虫的信息资源采集与提取系统

系统定期从队列中获取爬虫程序的url,生成多个线程爬网,并将获取的数据保存到数据库中。搜索引擎的焦点一直包括web内容的提取。在这里,您可以使用2.2.1中提到的两种信息提取方法来完成任务。在爬网之前,需要详细分析爬网内容以确定起始位置。确定爬网列表后,可以在webui模式下启动爬网程序,然后从爬网内容生成图像文件。最后,使用htmlpaxser工具解析和组合图像文件,并将结果提供给索引工作。

3.2基于Lucene的搜索引擎系统

将获得的结果写入索引后,Lucene将输入数据存储在反向索引的数据结构中,并将提取的单词用作查询关键字。通常,当用户进行查询时,他们会搜索某个单词,例如“宣传部门”。因此,倒排索引可以回答“宣传部门包含哪些资源或信息?”

索引库类似于数据库表结构。索引文件可以由Indexer创建。索引是向索引库中添加索引记录,以及在索引库中删除和更新索引文档。 Lucene支持两种索引结构,即多文件索引结构和复合索引结构。

用户通过提交搜索请求来获得Lucene搜索引擎服务器的服务。服务器将此请求转换为搜索引擎使用的查询对象格式。使用Lucene自己的查询解析器,您可以将用户输入的搜索文本转换为查询对象。

3.3检索系统和用户界面

检索系统相对于搜索引擎而言,后者是提供给系统的组件,而前者是提供给用户进行操作的部分。检索系统必须为用户提供可以在下拉菜单中使用的关键字选择,或者使用要由用户输入的文本框,并且还必须对搜索间隔和搜索限制关键字进行合理的设置。否则,不友好的用户界面将使良好的搜索引擎失去用户。考虑到用户浏览信息的便利性和检索习惯,需要根据用户的兴趣和习惯来列出表达方式。

3.4搜索引擎和信息资源管理界面

完整的搜索引擎需要大量需要配置的控制功能。 Lucene管理界面为开发人员提供了许多配置选项,例如缓冲区调整的使用量,提交更改的频率以及清除索引时间的最佳时间。具有诸如敏感词屏蔽和特洛伊木马监视之类的功能也非常重要。

此外,信息资源的管理也是黄页系统的一部分。例如,在构建黄页系统时,需要考虑并正确配置黄页系统的数据源,权威源以及相关应用程序系统的同步方法和频率。

4结论

基于Lucene的黄页系统的主要功能是其强大的搜索功能。它可能不如Google和百度等商业搜索引擎强大,但它更具特色和针对性,并且在特定范围内更实用。目前,我正在纠正构建数字校园的基本平台-公共数据基础设施平台,其中包括三个基本任务,即公共数据中心,统一身份认证系统和统一数据标准。本文的研究成果可以应用于该基础。在工作中,丰富的信息资源将以黄页的形式显示,使用户更感兴趣,从而改善教学,科研等工作的信息化。

最新论文
互联网背景下管理会计信息化建设方法
互联网背景下管理会计信息化建设方法
《西游记》的后现代性电影改编历程
《西游记》的后现代性电影改编历程
探讨如何正确解读小学语文教材文本问题
关于我国专业学位研究生教育的发展历程
二胡在戏曲音乐中的表演艺术浅析
从《舌尖》看中国纪录片解说风格
Lucene构建条件下的校园网黄页系统研究与实现
探讨如何正确解读小学语文教材文本问题
Lucene构建条件下的校园网黄页系统研究与实现
中央对特别行政区直接行使的权力的分类浅析
热门论文
关于我国会计国际化问题的认识与研究
探讨如何有效利用思维导图开展高中英语阅读教学
中小建筑公司如何做好成本控制工作
中小建筑公司如何做好成本控制工作
主题探究教学法在软件测试课程教学中的应用
基于传统孝文化的社会公德体系重构
CA数字证书在组织机构代码电子证书上的应用
从实现国家治理体系和治理能力现代化的视角浅析全面推进依法治国
探讨幼儿园大班开展自制图书活动的意义
少数民族四年级学生几何直观能力测评工具开发
从实现国家治理体系和治理能力现代化的视角浅析全面推进依法治国
《联合国国际货物销售合同公约》下的根本违约
互联网背景下管理会计信息化建设方法
热门标签
日期归档
2019年10月
2019年09月