垂直搜索引擎的研究与设计
【摘要】:
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信息,但是,包罗万象的检索结果显然不能满足特定领域用户的精确搜索的需求。因此,面向主题的垂直搜索引擎系统应运而生。
垂直搜索引擎系统包括网络机器人程序、索引程序和检索程序。与通用搜索引擎不同,垂直搜索引擎的网络机器人只采集Web中与主题相关的网页信息。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。此外,由于网页数量的减少,垂直搜索引擎系统的数据维护的代价也远远低于通用搜索引擎,使用普通的硬件设备即可建立一个高质、高效的垂直搜索引擎系统的硬件环境。
本文首先分析了通用搜索引擎与垂直搜索引擎在系统架构、工作原理、关键技术等方面的异同,介绍了垂直搜索引擎技术的研究现状和发展方向,然后深入分析了主题页面在Web上的分布特征,并重点研究了垂直搜索引擎的主题搜索策略和主题相关度判别算法。在此基础上,围绕垂直搜索引擎系统的体系结构,运用UML技术抽取出网络机器人程序和索引程序的对象模型。最后,应用Java+Lucene技术分别实现了网络机器人程序和索引程序,构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。
本文创新点:
(1)采用改进和扩展Apache Lucene的思想来指导系统的开发,有效地重用了Lucene中的核心代码;
(2)在Lucene的基础上独立开发了中文分词模块,具有新颖性
(3)对主题搜索策略进行了优化,采用一种同时结合网页文字内容和Web图的启发式搜索算法作为本系统的搜索策略,实验证明此算法能提高搜索准确率,并有效地避免了主题漂移现象。
|
|
|
|
1 |
褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年 |
2 |
林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年 |
3 |
王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年 |
4 |
毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年 |
|