收藏本站
《华东交通大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎的研究与设计

李广丽  
【摘要】: 随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信息,但是,包罗万象的检索结果显然不能满足特定领域用户的精确搜索的需求。因此,面向主题的垂直搜索引擎系统应运而生。 垂直搜索引擎系统包括网络机器人程序、索引程序和检索程序。与通用搜索引擎不同,垂直搜索引擎的网络机器人只采集Web中与主题相关的网页信息。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。此外,由于网页数量的减少,垂直搜索引擎系统的数据维护的代价也远远低于通用搜索引擎,使用普通的硬件设备即可建立一个高质、高效的垂直搜索引擎系统的硬件环境。 本文首先分析了通用搜索引擎与垂直搜索引擎在系统架构、工作原理、关键技术等方面的异同,介绍了垂直搜索引擎技术的研究现状和发展方向,然后深入分析了主题页面在Web上的分布特征,并重点研究了垂直搜索引擎的主题搜索策略和主题相关度判别算法。在此基础上,围绕垂直搜索引擎系统的体系结构,运用UML技术抽取出网络机器人程序和索引程序的对象模型。最后,应用Java+Lucene技术分别实现了网络机器人程序和索引程序,构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。 本文创新点: (1)采用改进和扩展Apache Lucene的思想来指导系统的开发,有效地重用了Lucene中的核心代码; (2)在Lucene的基础上独立开发了中文分词模块,具有新颖性 (3)对主题搜索策略进行了优化,采用一种同时结合网页文字内容和Web图的启发式搜索算法作为本系统的搜索策略,实验证明此算法能提高搜索准确率,并有效地避免了主题漂移现象。
【学位授予单位】:华东交通大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期
2 张红斌;曹义亲;;混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J];现代图书情报技术;2011年03期
中国硕士学位论文全文数据库 前10条
1 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
2 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
3 赵志军;基于分布式的垂直搜索引擎的研究与实现[D];北京信息控制研究所;2011年
4 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
5 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
6 东兴;垂直搜索引擎关键技术研究[D];浙江理工大学;2012年
7 黄书娟;基于Web的垂直搜索引擎的研究[D];武汉理工大学;2012年
8 朱敏;基于Lucene的垂直搜索引擎的研究与实现[D];成都理工大学;2012年
9 刘育莲;手机产品垂直搜索引擎的设计与实现[D];西安电子科技大学;2012年
10 勾智楠;垂直搜索引擎的研究与实现[D];河北科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 唐培和,杨新伦,刘浩;Google搜索引擎及其实现技术[J];广西工学院学报;2004年02期
2 张红斌;;网上求职机器人的软件设计[J];华东交通大学学报;2006年01期
3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
4 阳爱民,杨岳湘,瞿国平;网络机器人的分布性和可控性设计及研究[J];计算机工程;2000年06期
5 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
6 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
7 于磊,潘郁;智能学习型网络机器人[J];计算机工程;2004年13期
8 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
9 龙宇巍,王永成,许欢庆;定题搜索引擎Robot的设计与算法[J];计算机仿真;2004年04期
10 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期
中国硕士学位论文全文数据库 前8条
1 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
2 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
3 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
4 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
5 陈勇;中医药主题搜索网络机器人的研究与实现[D];西南交通大学;2005年
6 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年
7 姚勇;分布式Web挖掘与搜索的研究与实现[D];西安电子科技大学;2006年
8 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
4 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
5 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
6 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
7 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
8 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
9 明均仁;张帆;;网络文本信息过滤的意义及其模型初探[J];图书与情报;2007年04期
10 韩翠峰;蔺振玲;许峰;;基于Agent的高校数字图书馆个性化服务系统功能模块设计与分析[J];图书与情报;2010年06期
中国重要会议论文全文数据库 前10条
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
3 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
4 刘咏梅;卢鸿剑;赵振军;张艳龙;;基于Multi-agent的高考志愿填报智能推荐系统[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 刘咏梅;卢鸿剑;杜美玲;;基于Multi-agent的个人电脑客户定制服务推荐系统[A];2006中国控制与决策学术年会论文集[C];2006年
6 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
7 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
8 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
10 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 杜曼玲;供应链过程管理的分析方法与技术实现[D];北京交通大学;2010年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 谭婷婷;网络微内容推荐方法及支持系统研究[D];华中科技大学;2011年
4 袁海龙;SSS巡天星表系统设计和光纤分配算法优化[D];中国科学技术大学;2011年
5 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
6 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
7 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
8 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
9 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
10 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
6 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
7 吴迪;高校毕业生就业推荐系统的设计与开发[D];大连理工大学;2010年
8 曹萍;Agent电子商务推荐系统下协同过滤技术研究[D];辽宁工程技术大学;2009年
9 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
2 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
3 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
4 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
5 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
6 王洪香;;Java程序中乱码的由来及解决方法[J];电脑学习;2007年04期
7 周杨;;基于Lucene的小型搜索引擎系统的架构与实现[J];电脑编程技巧与维护;2010年11期
8 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
9 周珍娟;张字平;陆玲;;基于Lucene2.0的电子文献全文检索系统[J];电脑知识与技术(学术交流);2007年23期
10 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
中国重要会议论文全文数据库 前1条
1 ;中文信息处理重大成果汇报展方正集团展示内容介绍[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前3条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
2 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
3 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
4 戚春超;Deep Web数据源发现与分类研究[D];南京信息工程大学;2011年
5 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年
6 杨成宝;我国搜索引擎市场发展趋势与策略研究[D];山东大学;2011年
7 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
8 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年
9 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
10 孙良;一种分布式智能信息检索系统的研究与实现[D];浙江大学;2002年
【二级引证文献】
中国期刊全文数据库 前10条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 康亚娟;;站内搜索的研究与实现[J];信息技术;2011年08期
3 王超;李书琴;肖红;;基于本体的旱区农业垂直搜索引擎研究[J];农机化研究;2013年08期
4 许强;胡秋香;李梓钺;陈迎春;张新平;;供应足否?用引擎搜索医药情报再决策[J];情报杂志;2011年03期
5 朱雪莲;;基于Lucene全文检索引擎的应用研究[J];微型机与应用;2010年22期
6 施佺;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
7 朱雪莲;;基于Lucene专业搜索引擎的研究应用[J];现代计算机(专业版);2010年09期
8 王燕平;;基于文献计量的我国搜索引擎研究现状和热点分析[J];现代情报;2012年07期
9 姚争儿;李志奎;;基于移动终端的学习资源垂直搜索引擎系统研究[J];现代计算机(专业版);2013年02期
10 樊同科;谢勇;;一种混合搜索算法在智能Web中的应用[J];计算机技术与发展;2013年08期
中国硕士学位论文全文数据库 前10条
1 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年
2 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
3 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
4 荆明明;基于Android的个性化RSS订阅系统的设计与实现[D];哈尔滨工业大学;2011年
5 王小磊;生物医学专题信息跟踪与服务系统关键技术的研究与应用[D];中国人民解放军军事医学科学院;2011年
6 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
7 金婵鸣;垂直搜索引擎系统的研究[D];武汉理工大学;2010年
8 陈浩;面向校园网的搜索引擎的设计与实现[D];北京邮电大学;2010年
9 朱玉红;基于Lucene全文检索构建教育搜索引擎的设计与实现[D];天津师范大学;2012年
10 张敏;基于WEB的学科资源垂直搜索引擎的设计与实现[D];华中师范大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
3 白同强,刘磊;语义Web的研究与展望[J];吉林大学学报(信息科学版);2004年02期
4 李粤;安捷;李星;;排序融合算法在校园网搜索引擎中的应用[J];大连理工大学学报;2005年S1期
5 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
6 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
7 张春元,康耀红,王曙光,张莉;中文搜索引擎的缺陷与改进[J];海南大学学报(自然科学版);2004年01期
8 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
9 文坤梅,卢正鼎,叶卫国,金莉;搜索引擎中页面更新策略的分析与改进[J];华中科技大学学报(自然科学版);2002年12期
10 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
中国硕士学位论文全文数据库 前1条
1 余锦;大规模分布式全文搜索系统的研究与设计[D];清华大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
2 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
3 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
4 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
5 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
6 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
7 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
8 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
9 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
10 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026