收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的面向主题信息搜索系统的关键技术分析及应用

戴支荣  
【摘要】:网络信息的爆炸性增长使搜索引擎成为人们上网必不可少的工具之一。其中应用最广泛的是以Goolge、百度为代表的综合性搜索引擎,这类搜索引擎服务对象是网络大众用户它为广大网络用户在查找信息上提供了很大的方便。但随之而来的查找结果的准确率低,其一是因为由于抓取网页数量以指数级别增大,对这些网页的预处理能力降低,致使查询结果中存在大量重复网页;其二,人们由于生活环境与工作环境的不同,对信息关注方向也不同,例如一个气象工作人员,他们希望查询到的结果会把与气象相关的网页优先排序在前几页,而一个农业工作者希望将与农产品相关的网页优先显示,这样一来综合性搜索引擎便无法满足这类专业领域人员的需求了。在这种背景下面向主题的搜索引擎应运而生。 面向主题的搜索引擎系统与综合性网页搜索引擎最大的区别就是对网页信息进行了结构化信息抽取,这样做的好处是,在把网页分化成小粒度的单元后,更加方便对网页文档的内容进行加工处理,如网页净化、去重等。由于搜索引擎中运作着的各部分是环环相扣,当有了质量较高的网页预处理过程,接下来可以减小索引的负担,且搜索出的结果准确率更高,使用户有更高的体验度。 面向主题搜索系统中,将它分为四大主要部分,分别为:数据搜集模块、网页预处理模块、索引模块、搜索模块。其中,网页预处理模块又可以分为网页净化和网页消重模块。在面向主题的搜索引擎中会使用到许多技术,为了更加贴合主题搜索,对其中的几种技术进行改进,主要工作如下: 首先,介绍了网页爬虫Heritrix的使用,在原抓取的技术上,添加了在抓取过程中进行了URL匹配判断的功能,使Heritrix爬行的结果更加贴合主题。 其次,介绍了网页解析技术HtmlParser,以及如何利用HtmlParser来解析网页来以达到网页净化与消重的目的。网页预处理过程在面向主题搜索系统中有着举足轻重的作用,详细描述了网页净化的算法,在网页消重中描述了当前主流的指纹消重算法,并探讨了几种对指纹的“原材料”—特征串的提取的几种方法,并指出它们在实际运用中判断重复网页准确率上的不足。针对这一情况,在算法中引入一种文档分段算法—TextTiling分段算法,并在原有算法的基础上加入同义词集对TextTiling算法进行改进,使之能更好的适应中文文档中同义词的变化。最后对基于权值的和本文提出的基于改进后的TextTiling分段算法在实际网页消重中进行实验比较,有效地对网页消重中有待完善的方面进行了补充。 再次,介绍了本文中建立索引和提供搜索接口的核心技术Lucene,详细描述了Lucene工作原理,对于Lucene中的索引建立采用了多线程技术,大大提高其索引效率;详细分析了Lucene的排序过程及其公式,并在原有排序公式的基础上提出适合主题搜索的排序公式。 最后,在对面向主题的搜索系统进行研究后,设计了一个供气象人员使用的主题搜索引擎系统,系统中还加入一些个性化设置,如热点词推荐和网页预览功能。热点词推荐是利用索引后的文件按一定算法对最近使用频繁的词语进行搜集并呈现给用户;网页预览功能是让用户在不用打开一篇网页的基础上对网页的内容进行浏览。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;北京石景山区网页设计大赛开幕[J];电脑爱好者;2010年24期
2 贾健;;视觉艺术在网页设计中的运用[J];企业导报;2011年11期
3 王诗沐;;网页设计和用户界面设计[J];程序员;2010年07期
4 李慧萍;刘亮;;网页设计中CSS的应用技巧[J];电脑知识与技术;2011年26期
5 李晓宁;;浅析网页设计中视觉要素对人产生的情感因素[J];大众文艺;2011年16期
6 陈振宇;;色彩在网页设计中的应用[J];才智;2011年18期
7 黄俊鹏;;浅析案例教学法在网页设计教学中的应用[J];华章;2011年21期
8 廖洁;;高职非艺术类专业网页设计教学探索[J];现代营销(学苑版);2011年07期
9 李湘媛;;网页版式设计的视觉流程分析[J];艺术教育;2011年08期
10 李晓宁;;网页设计中的视觉要素分析[J];大舞台;2011年08期
11 司丽丽;;网页设计中的文字版式设计探讨[J];硅谷;2011年16期
12 彭晓明;林姝华;;浅谈网页设计教师的专业成长[J];中国科教创新导刊;2011年23期
13 张建淳;;网页设计的弹性化趋势[J];新闻传播;2011年06期
14 热沙来提·热依木;;网页设计中的页面布局研究[J];华章;2011年23期
15 刘妤;;艺术设计专业的网页设计课程教学改革与实践[J];包装世界;2011年04期
16 海狼;;复制受限网页 不用那么麻烦[J];电脑爱好者;2011年07期
17 张秀梅;彭新平;;色彩在网页中的应用[J];经营管理者;2011年13期
18 刘伟;;关于商用网页的视觉设计法则研究[J];吉林艺术学院学报;2011年03期
19 周景报;唐建宁;;高职院校网页设计实践[J];长春工业大学学报(自然科学版);2011年03期
20 王会兰;;浅谈项目教学法在《网页设计与制作》课程中的应用[J];新课程(教育学术);2011年05期
中国重要会议论文全文数据库 前10条
1 王谨;;水墨风格在网页设计中的运用[A];城市文化与艺术审美[C];2008年
2 李燕军;;浅谈互联网信息搜索系统的应用[A];第十九次全国计算机安全学术交流会论文集[C];2004年
3 许文惠;;图书馆网站及网页设计初探[A];图书馆理论与实践[C];2002年
4 孙宇航;;科技期刊网站的建设探讨[A];第4届中国科技期刊青年编辑学术研讨会论文集[C];2004年
5 姚秋明;甄莉;;基于NEWS油藏综合解释系统的网站建设[A];油气地球物理实用新技术——中国石化石油勘探开发研究院南京石油物探研究所2005年学术交流会论文集[C];2005年
6 杨孙超;;县级公共图书馆网站建设的思考[A];福建省图书馆学会2006年学术年会论文集[C];2006年
7 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
8 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
9 杜玉梅;杜习英;刘晓云;;中小企业网站建设方案[A];计算机模拟与信息技术会议论文集[C];2001年
10 余嵘华;;大学物理网上教学系统的安全设计[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
中国博士学位论文全文数据库 前8条
1 张星;市场机遇信息搜索的社会网络模式及其系统的研究[D];华中科技大学;2009年
2 赖布尔(Muhammad Nabeel Talib);语义支持的一种面向盲人使用者的电子商务语音浏览方法研究[D];华中科技大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 宋波;Web应用交互的建模和测试用例生成[D];上海大学;2010年
6 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
7 朱雷;我国医院网站医疗信息服务综合评价模型及实证研究[D];中南大学;2010年
8 张博;多视点商品本体学习研究[D];武汉理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘俊荣;基于行为识别的网页文本分类算法研究与实现[D];北京邮电大学;2010年
2 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
3 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
4 闫妍;基于动态效果的电子商务网页设计与研究[D];东北大学;2007年
5 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年
6 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
7 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年
8 陈烨;面向用户体验的网页界面优化设计方法研究[D];重庆大学;2010年
9 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年
10 董娟;基于页面结构分析的网页信息抽取方法研究[D];中国石油大学;2010年
中国重要报纸全文数据库 前10条
1 酷娱网设计部经理 王民;网页设计面试常见四陋习[N];电脑报;2010年
2 Relen;个性网页设计之内容艺术[N];电脑报;2001年
3 Relen;个性网页设计之创意无限[N];电脑报;2001年
4 河南 张金贵;网页设计布局心得[N];电脑报;2001年
5 西安市第十九中学 丁锦;网页设计中的色彩搭配[N];学知报;2011年
6 记者 薛亚芳;网络美工,动手能力最重要[N];人才市场报;2011年
7 吴兴国;网页设计的几项原则[N];山西科技报;2000年
8 实习生 郭晓;“我设计的软件是独一无二的”[N];科技日报;2006年
9 王楠;网页设计:网站的灵魂工程师[N];电脑报;2010年
10 商报记者 何衡柯;四大快递本土化瓶颈待破[N];北京商报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978