收藏本站
《北京交通大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

可定制的垂直搜索引擎研究与实现

李旭  
【摘要】: 由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的查询请求。相比之下,垂直搜索引擎只覆盖与特定领域主题关键词相关的Web区域,这样搜索的内容可以更深,搜索的周期可以更短。由于Web分类众多,领域又广,用户希望能对所提供的服务定制。可定制的垂直搜索引擎应该从人的角度去设计,让用户选择自己感兴趣的领域服务,这样会吸引更多的用户。因此,能满足用户对快速、准确、方便的获取信息资源的要求。目前,垂直搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象,可定制的垂直搜索引擎更具挑战性和吸引力。 本文首先简要介绍了搜索引擎的发展现状,分析了存在的优缺点,然后通过对当前通用搜索引擎技术的学习和研究,结合可定制的垂直搜索引擎的特点,设计出了可定制的垂直搜索引擎的总体架构及核心模块:网页抓取模块、分词储存索引模块、网页检索模块和可定制模块。然后本文分章节详细分析、设计和实现了这四个模块。它们构成了本文的核心部分。通过对垂直搜索引擎的Web信息抓取模块的设计和实现,完成了基本的网页抓取工作;本文采用了海量智能分词研究版(免费)来分词,结合Lucene实现了文档的存储与索引;在网页检索模块中,本文采用BFU排序算法来对网页进行排序,最后本文给出了函数的具体形式及收敛性证明;通过对各大垂直搜索引擎的亲身体验和仔细研究,分析出存在的不足及改善方法,于是本文设计了可定制的实现流程图及功能定制。本文最后的总结讨论了这些技术及其将来还需进一步研究的内容。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前9条
1 韩梅;宁锐;;Google搜索引擎研究新进展[J];大学图书情报学刊;2006年01期
2 王洪香;;Java程序中乱码的由来及解决方法[J];电脑学习;2007年04期
3 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期
4 吴永英,雷红利,许向阳;一种自底向上构造索引B~+树的方法[J];计算机工程与应用;2004年06期
5 牛耘,朱献有;神经网络技术在汉语歧义切分中的应用[J];情报学报;1999年03期
6 刁力力,王丽坤,陆玉昌,石纯一;计算文本相似度阈值的方法[J];清华大学学报(自然科学版);2003年01期
7 常浩;陈莉;;基于摘要的web内容挖掘研究[J];微计算机信息;2006年24期
8 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
9 刘菁菁;董静;林鸿飞;叶正;;基于锚文本相似度的链接算法[J];郑州大学学报(理学版);2007年02期
中国硕士学位论文全文数据库 前1条
1 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
【共引文献】
中国期刊全文数据库 前6条
1 韩建保;罗小江;;基于数据挖掘的坦克传动装置故障征兆识别展望[J];车辆与动力技术;2005年04期
2 武胜良;;数据挖掘中模糊聚类方法在信息检索中的应用[J];当代经理人(中旬刊);2006年15期
3 邓宏涛;中文自动分词系统的设计模型[J];计算机与数字工程;2005年04期
4 宋玲,马军,刘怀辉;基于神经网络的概念联想和概念聚类[J];情报学报;2002年02期
5 郭伟;陈蓉;周伟;熊伟;于中华;;基于延迟决策和斜率的新词识别方法[J];四川大学学报(自然科学版);2007年03期
6 李宇;基于网络基础的信息交流的技术机制[J];图书馆建设;2002年03期
中国重要会议论文全文数据库 前1条
1 傅士光;林友芳;万怀宇;徐娟娟;;一种基于规则的中文分词算法[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 林华兵;移动搜索中的查询优化和主题分类策略[D];福州大学;2006年
2 朱振宇;流程工业中数据挖掘技术应用的研究[D];浙江大学;2006年
3 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
4 谭德坤;文本挖掘及其在UDDI Registry智能检索中的应用[D];昆明理工大学;2004年
5 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
6 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年
7 张焕哲;基于主题概念树的科技文本分类方法研究和实现[D];华北电力大学(北京);2006年
8 朱祥玉;基于向量空间模型的自适应文本过滤系统研究[D];山东师范大学;2006年
9 曲晓;受限条件下学生作业文本相似度的研究[D];内蒙古师范大学;2006年
10 郭翠珍;基于网格的分词服务系统的研究与实现[D];苏州大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 耿焕同,陈少军,罗永龙;面向主题的互联网信息智能获取与处理工具[J];安徽师范大学学报(自然科学版);2004年04期
2 郑德俊;Google的成功特征及其对我们的启示[J];图书与情报;2004年06期
3 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
4 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
5 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
6 吴明礼,施水才;一种结合超链接分析的搜索引擎排序方法[J];计算机工程;2004年15期
7 曹红,袁津生;林业主题搜索引擎研究[J];计算机应用;2004年S2期
8 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
9 王强 ,王继成 ,武港山 ,张福炎;Web文档清洗系统中HTML解析器的开发[J];计算机应用研究;2002年02期
10 李智辉,卢苇;Web文本主题挖掘技术研究[J];计算机教育;2005年11期
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前6条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
2 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
3 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
4 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
5 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
6 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 张玲,林亚平,陈治平,童调生;基于综合价值的Web主题信息搜集策略研究[J];系统仿真学报;2005年02期
2 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
3 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期
4 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期
5 柳婷;;网络蜘蛛的简单设计与研究[J];大众商务;2010年16期
6 李学勇,欧阳柳波,李国徽;非贪婪策略在WEB搜索中的应用[J];中央民族大学学报(自然科学版);2004年03期
7 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
8 李学勇,谭义红,田立军,欧阳柳波,李国徽;ε-贪婪策略在网络蜘蛛搜索策略中的应用[J];湖南工程学院学报(自然科学版);2004年02期
9 李旭倩;甄力;;MFC网络蜘蛛流程分析[J];电脑编程技巧与维护;2008年09期
10 陈治平,林亚平,李军义;智能门户搜索引擎技术[J];计算机工程;2004年03期
中国重要会议论文全文数据库 前10条
1 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
2 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
4 周明;刘晓华;蒋龙;Matt Scott;;利用网络挖掘技术建立英语学习平台[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
6 袁特;顾新建;胡恒杰;许琦;;一种企业竞争情报系统的研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
7 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
8 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 孙亚夫;常峰;;本地搜索服务的结构设计与关键技术[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
10 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 李永胜;垂直搜索:Google们漏掉的空档?[N];中国计算机报;2006年
2 沉风;垂直搜索:互联网服务生活新方向[N];人民邮电;2007年
3 薛娟;垂直搜索盯紧风投的口袋?[N];中国经济时报;2006年
4 ;移动垂直搜索开拓中国搜索新天地[N];人民邮电;2006年
5 姜蓉;垂直搜索是搜索市场的新“钱景”[N];中国经营报;2005年
6 苏娟;中移动即将上线无线音乐垂直搜索业务[N];中国计算机报;2008年
7 建平;专业垂直搜索升温[N];计算机世界;2005年
8 魏蓓;中文商业搜索引擎提供垂直搜索服务[N];市场报;2006年
9 本报记者 廖庆升;在线旅游市场格局生变 垂直搜索降低出游成本[N];通信信息报;2010年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
中国博士学位论文全文数据库 前9条
1 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年
4 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
5 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 李东;在线旅行服务商业模式研究[D];华侨大学;2011年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
2 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
3 何源源;迅雷资源搜索引擎的研究与实现[D];西北工业大学;2007年
4 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
5 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
6 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
7 刘海峰;垂直搜索引擎的研究与实现[D];大连理工大学;2009年
8 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
9 袁晓曦;基于机器学习的中文文本自动分类的研究和应用[D];武汉理工大学;2007年
10 任严;基于网络视频业务的搜索引擎的设计与实现[D];北京交通大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026