收藏本站
《东北大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎技术的研究及实现

刘大伸  
【摘要】:在信息社会中,如何在浩如烟海的信息中找到我们所需要的、有用的信息成为一个十分重要的问题,Web搜索引擎也因此应运而生,影响我们的生活。 目前许多搜索引擎都使用基于关键字查询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。例如,在百度中搜索“搜索引擎”,找到相关网页约51,200,000篇,在google中找到14,600,000篇。搜索结果数量巨大,根本没办法全部浏览。并且其中大部分网页对用户是没有用的。由此可见,搜索引擎仅有广度,没有深度,是不能满足用户需求的。 对这个问题的解决办法是建立垂直搜索引擎。垂直搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与综合搜索引擎截然不同的引擎类型。 本文根据开源代码Lucene、Heritrix等进行垂直搜索引擎技术的研究,主要包括搜索引擎的架构组成,Lucene、Heritrix的架构组成,及如何构建垂直搜索引擎。 本文首先介绍搜索引擎的历史,然后介绍搜索引擎的基本构成。接下来介绍Hritrix和Lucene的架构及主要部件。并对深度优先查找、广度优先查找算法、trie算法进行研究,提出用trie实现倒排索引的想法。最后结合实例介绍构建垂直搜索引擎的全过程。
【学位授予单位】:东北大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前4条
1 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
2 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
3 沈贺丹;潘亚楠;邵良杉;;关于搜索引擎的研究综述[J];计算机技术与发展;2006年04期
4 李斌;徐蓉艳;;搜索引擎简析[J];扬州教育学院学报;2006年03期
中国硕士学位论文全文数据库 前10条
1 赵立刚;搜索引擎的研究与设计[D];吉林大学;2005年
2 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
3 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年
4 罗玫;基于LUCENE2.0的源代码搜索引擎架构的实现[D];西北工业大学;2007年
5 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
6 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
7 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
8 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
9 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年
10 张杰;搜索引擎技术的研究[D];西安理工大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 景虹;詹海生;;基于Web Services的个性化学习资源获取[J];中国远程教育;2006年08期
2 徐甜;田有贵;;数据挖掘在Web中的应用研究[J];福建电脑;2006年09期
3 李彦,贾爱军,占向辉,李翔龙;面向创新设计的多层次Web信息检索研究[J];工程设计学报;2005年03期
4 刘杰;谈个人数字图书馆[J];甘肃科技;2004年04期
5 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期
6 董民辉;;海洋类学科数字图书馆门户体系建设与实践初探[J];海洋信息;2006年01期
7 马潇,吴子贵;电梯规划的动态模型[J];计算机工程与应用;2004年18期
8 陈金阳,蒋建中,张良胜;FTP协议分析及其客户端程序实现[J];计算机工程与应用;2005年32期
9 潘静,饶若楠;基于Web数据挖掘的信息获取系统的研究及设计[J];计算机工程;2004年S1期
10 刘东飞;陈智贤;邓俊涛;余俊;;一种辅助翻译搜索引擎的研究与实现[J];计算机工程;2007年01期
中国重要会议论文全文数据库 前2条
1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;基于Web的民文信息检索中维、哈、柯文关键词的预处理[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
2 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年
3 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年
4 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 肖燕华;基于特征分块的面向专业领域的网络信息搜索系统的研究与实现[D];东华大学;2004年
2 陈菡;基于Web的远程答疑系统的研究与开发[D];上海师范大学;2004年
3 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年
4 郑大庆;基于Multi-Agent Systems(MAS)的商务智能系统及其信息搜索引擎研究[D];广东工业大学;2004年
5 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
6 吴福英;面向用户的信息过滤研究与实现[D];江西师范大学;2004年
7 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年
8 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
9 罗然;网络媒体传播的局限性问题及规避研究[D];广西大学;2004年
10 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
【同被引文献】
中国期刊全文数据库 前10条
1 章成敏,章成志;国外农业搜索引擎评析[J];农业网络信息;2004年11期
2 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
3 唐培和,杨新论,刘浩;Google搜索引擎剖析[J];情报杂志;2004年08期
4 骆正清,陈增武,王泽兵,胡上序;汉语自动分词研究综述[J];浙江大学学报(工学版);1997年03期
5 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
6 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
7 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
8 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
9 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
10 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
中国博士学位论文全文数据库 前1条
1 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前6条
1 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
2 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
3 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年
4 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年
5 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
6 张彬;面向中文网络信息检索的自动分词系统设计与算法实现[D];华东师范大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 李粤;安捷;李星;;排序融合算法在校园网搜索引擎中的应用[J];大连理工大学学报;2005年S1期
4 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
5 朱俊卿;搜索引擎Google研究[J];广州大学学报(社会科学版);2001年11期
6 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
7 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
8 赫枫龄,左万利;用有向图法解决网页爬行中循环链接问题[J];吉林大学学报(理学版);2004年03期
9 李岩,陈新中,杨炳儒;基于Web挖掘的智能门户搜索引擎的研究[J];计算机工程与应用;2002年04期
10 陈新明,钟涛,万钧,吴杰,张世永;WWW搜索引擎的数据采集技术[J];计算机工程与应用;2002年07期
中国博士学位论文全文数据库 前2条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前6条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
2 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
3 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
4 张涛;网络蜘蛛在智能搜索引擎中的设计与实现[D];兰州理工大学;2003年
5 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
6 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
2 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
3 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期
4 胡永锋;;浅谈垂直搜索引擎的工作原理[J];科学大众(科学教育);2011年06期
5 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
6 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
7 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
8 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
9 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
10 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
9 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
10 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 壮壮;批量保存网页信息[N];电脑报;2004年
6 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
7 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
8 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
9 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
10 路人甲;请个专家来贴图[N];电脑报;2005年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
9 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
10 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 王鹏;垂直搜索引擎的研究[D];武汉理工大学;2010年
2 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 薛惠;基于JAVA的移动新闻搜索引擎的研究与设计[D];河北科技大学;2010年
8 赵立磊;基于网页去重的垂直搜索引擎设计与实现[D];大连理工大学;2012年
9 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
10 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026