收藏本站
《北京邮电大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Nutch的搜索引擎系统的研究与实现

鱼健榕  
【摘要】:在已经到来的Web 2.0时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多而且成熟的互联网用户对搜索引擎的要求也越来越高,其功能也在不断丰富和完善当中。Nutch搜索引擎系统就是一个优秀的开源搜索项目,本文正是在Nutch的基础上,探讨了搜索引擎的分布式实现。 本文对搜索引擎的一般架构、原理、组成、工作流程作了较为细致的研究。搜索引擎一般由数据抓取模块、索引模块、检索模块组成。本文在对Nutch系统各组成部分进行深入研究的基础上,提出了分布式搜索引擎平台的具体设计方案。结合Hadoop分布式计算框架,对Nutch的爬虫做分布式改造,使得在数据抓取过程中,能够并行高效的完成抓取任务;同时,对数据的索引也是并行进行的;在检索时,通过Web服务器提供统一的检索入口,通过IPC机制把用户的检索请求发送到各子节点,各子节点检索自己本地的索引数据,分别返回给Web服务器。另外,结合中文搜索引擎用户的实际需求,对Nutch的默认分词模块做了改进。通过Paoding分词组件的加入,在一定程度上改进了搜索引擎检索的效果。通过对开源分布式集群监控项目ganglia的搭建,实时监控Nutch集群的工作状态,及时对集群做出调整,很好的辅助了Nutch集群的工作。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前4条
1 房志峰;;中文搜索引擎中的分词技术研究[J];科学技术与工程;2008年09期
2 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
3 倪坚;陈世平;胡成梅;;分布式计算在Web信息检索中的应用[J];微计算机信息;2006年03期
4 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
中国硕士学位论文全文数据库 前7条
1 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年
2 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年
3 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
4 尹辉;基于Nutch的搜索系统的研究[D];电子科技大学;2008年
5 余静;基于Nutch的面向特定主题的爬虫研究[D];辽宁工程技术大学;2008年
6 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
7 程锦佳;基于Hadoop的分布式爬虫及其实现[D];北京邮电大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
2 李艳红;庞小平;李海亭;;地名分词搜索的词典设计与匹配方法研究[J];测绘信息与工程;2011年02期
3 许华;刘勇;;中文分词词典机制的研究[J];福建电脑;2010年03期
4 庄新妍;;计算机中文分词技术的应用[J];呼伦贝尔学院学报;2010年03期
5 綦科;谢冬青;;基于内容的短信分类系统的设计与实现[J];广州大学学报(自然科学版);2011年05期
6 焦蕾;殷锋社;;基于JAVA技术的搜索引擎的研究与实现[J];电子设计工程;2012年07期
7 黄羿;马新强;李丹宁;;基于综合倒排索引的个性化搜索研究[J];贵州科学;2009年03期
8 王鉴全;季绍波;;基于中文语法树的概念图挖掘研究[J];大连海事大学学报;2012年04期
9 黄敏;;网络舆情热点挖掘算法研究与实现[J];安徽大学学报(自然科学版);2012年06期
10 陈军;卢涵宇;姚丹丹;;一种基于处理时间的Map/Reduce动态均衡调度算法[J];江西师范大学学报(自然科学版);2013年01期
中国重要会议论文全文数据库 前2条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 王斌;;移动互联网定位技术分析及融合方式探讨[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
中国博士学位论文全文数据库 前3条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
2 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
3 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
2 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
3 凌辰;基于Web服务器远程无缝迁移技术的研究与应用[D];天津理工大学;2010年
4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
5 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
6 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年
7 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
8 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
9 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
10 周民;海量web舆情挖掘算法研究[D];电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
3 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
4 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
5 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
8 任瑞娟,李洪建;中文WWW搜索引擎比较研究[J];大学图书馆学报;1999年05期
9 陈丛;;Hash算法原理及在快速检索中的应用[J];福建电脑;2009年11期
10 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
中国博士学位论文全文数据库 前1条
1 潘谦红;分布式信息检索的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
中国硕士学位论文全文数据库 前4条
1 许林杰;中文文本分词研究[D];山东师范大学;2003年
2 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
3 姜鑫维;基于分布式的智能搜索引擎[D];武汉理工大学;2006年
4 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 王巧玲;彭静;王春红;;中文分词技术的研究及在Nutch中的实现[J];科技信息;2011年19期
2 杨晶;吕天君;蒋占生;;Web搜索引擎原理及应用研究[J];软件导刊;2008年07期
3 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
4 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
5 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
6 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
7 张敏;杜华;;Nutch中文分词的设计与实现[J];河北北方学院学报(自然科学版);2010年04期
8 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期
9 朱莹芳;;JAVA技术与人工智能在搜索引擎上的应用[J];硅谷;2009年24期
10 伍裕标;搜索无结果原因剖析[J];个人电脑;2004年03期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
3 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
4 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
7 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
8 常智荣;搜索引擎Nutch在数字图书馆中集成应用的研究与实现[D];北京邮电大学;2010年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026