收藏本站
《大连交通大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于PageRank算法的分布式搜索引擎技术研究

郭小溪  
【摘要】:自人类社会进入电子信息时代以来,互联网产业呈迅猛发展态势,网络信息资源已逐步成为人类获取资讯的重要途径,这使现阶段搜索引擎面临着前所未有的挑战,技术改革创新已势在必行。面对繁多杂乱的信息数据,是否能够准确检索到满足用户需求的重要信息成为评判搜索引擎质量的重要指标之一,为此,网页排序算法作为影响搜索引擎质量因素而收到广泛重视。同时,面对互联网的飞速发展,数额庞大且仍旧爆炸式增长的信息数据,传统的集中式搜索引擎已渐露疲态。分布式搜索引擎很好的解决了集中式搜索引擎在可扩展性,网络资讯涵盖率以及实时性等方面的局限。一改系统机能在-台主机实现的集中式结构,将搜索引擎的功能实现交由互联网上若干服务器完成,并由中心节点调控,形成分布式搜索结构。分布式搜索引擎的研究越发受到搜索引擎运营商的关注,势必变为未来搜索引擎的发展方向。 本文首先通过对基于网络链接结构的经典网页排序算法——PageRank算法的学习研究,针对算法权威值均分,以及忽略用户随机行为的缺陷提出了一种改进的Page Rank算法。新算法借鉴马尔可夫链转移概率思想,利用网页入度在竞争网页中的比率以及用户二次搜索概率来构造转移概率,使网页权威值按照转移概率分配。同时,本文设计了基于Hadoop和Lucene开源框架的分布式搜索引擎模型,在传统搜索引擎中引入HDFS分布式文件系统以及Map/Reduce计算模型等分布式计算技术,将模型系统分为分布式爬行器,分布式索引器以及分布式检索器三个模块实现搜索引擎的分布式设计。利用Master/Slave结构,由一个Master节点分发任务到各个Slave节点完成功能的实现,Master节点通过分析Slave节点上报的“心跳记录”对其进行控制协调。改进的分布式搜索引擎模型系统对于PC的性能要求低,并具有更好的可扩展性,实时性以及更高的网络覆盖率。此外,本文将改进的PageRank算法应用到分布式系统中,优化检索质量,使PageRank算法与分布式搜索引擎得到了更好的结合。
【学位授予单位】:大连交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
2 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
3 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期
4 陈玮,陈玉鹏,石晶,陆达;一种高效的全文检索索引技术[J];计算机应用研究;2004年07期
5 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
6 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
7 张岭,叶允明,宋晖,于水,马范援;一种高性能分布式Web Crawler的设计与实现[J];上海交通大学学报;2004年01期
8 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
9 龚丽萍;;搜索引擎Google与百度比较研究[J];图书情报论坛;2007年03期
10 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
中国博士学位论文全文数据库 前2条
1 刘玉婷;网页排序中的随机模型及算法[D];北京交通大学;2009年
2 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
3 李敏;黄凯;;一个多线程全文检索系统的构建[J];长江大学学报(自然科学版)理工卷;2010年03期
4 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
5 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期
6 徐静;;图像搜索引擎的进步与应用现状分析[J];电子商务;2011年04期
7 吴世东;李茜华;丁伟;刘姝;;从专利战略的视角看中国搜索引擎公司的发展[J];电子知识产权;2009年11期
8 刘敏娜;葛萌;陈娟;;基于Lucene的全文搜索引擎设计与实现[J];福建电脑;2009年05期
9 张芳;;基于用户行为的PageRank算法[J];福建电脑;2009年06期
10 肖卓磊;;搜索引擎作弊及反作弊技术探究[J];阜阳师范学院学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前8条
1 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
2 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
7 王斌;;移动互联网定位技术分析及融合方式探讨[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
8 马莎莎;;文献检索过程的认知态及与之相关的显著性标引框架[A];中国煤炭学会成立五十周年高层学术论坛论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 刘峥;图像的语义标注及其改善问题研究[D];山东大学;2011年
2 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 臧铖;个性化搜索中隐私保护的关键问题研究[D];浙江大学;2008年
7 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
8 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
9 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
10 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
5 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
6 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年
7 凌辰;基于Web服务器远程无缝迁移技术的研究与应用[D];天津理工大学;2010年
8 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
9 周志刚;数据挖掘技术在计算机取证的研究[D];大连交通大学;2010年
10 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 李德毅;;云计算支撑信息服务社会化、集约化和专业化[J];重庆邮电大学学报(自然科学版);2010年06期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 姚树宇,赵少东;一种使用分布式技术的搜索引擎[J];计算机应用与软件;2005年10期
4 蔡建超;蔡明;;搜索引擎PageRank算法研究[J];计算机应用与软件;2008年09期
5 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
6 张涛;;Web数据挖掘现状分析[J];科学之友(B版);2009年06期
7 李玮,李利;Web搜索引擎与全文检索技术[J];情报科学;2003年05期
8 陈继红,青晓;四种搜索引擎的比较研究[J];情报科学;2003年10期
9 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
10 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
中国重要报纸全文数据库 前1条
1 本报记者 祁金华;[N];网络世界;2007年
中国硕士学位论文全文数据库 前7条
1 金松昌;基于HDFS的多用户并行文件IO的设计与实现[D];国防科学技术大学;2010年
2 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
3 赵鹏;基于数据压缩的信息检索技术的研究[D];黑龙江大学;2002年
4 陈全;异构环境下Map-Reduce调度算法的研究[D];上海交通大学;2009年
5 高勋;基于云计算的Web结构挖掘算法研究[D];北京交通大学;2010年
6 李雪锋;基于云计算环境的web数据挖掘算法研究[D];北京交通大学;2010年
7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 张毅;张冬梅;;搜索引擎PageRank算法的比较与改进[J];科技创新导报;2008年21期
2 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期
3 林元元;;搜索引擎优化技术(SEO)的应用[J];软件导刊;2009年11期
4 崔明;王振妘;;当前搜索引擎不足及改进建议[J];图书馆学研究;2006年07期
5 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期
6 徐昭苏;;网站推广之SEO[J];科技信息(科学教研);2008年09期
7 任丽芸;杨武;唐蓉;;搜索引擎网页排序算法研究综述[J];电脑与电信;2010年05期
8 李世明;赵恒永;;专题搜索引擎研究与实现——信息过滤[J];电子科学技术评论;2005年04期
9 过仕明;;PageRank技术分析及网页重要性的综合评价模型[J];图书馆论坛;2006年01期
10 王福海;;基于PageRank的主题过滤算法改进[J];科技信息;2011年15期
中国重要会议论文全文数据库 前10条
1 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
6 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年
2 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年
3 郭小溪;基于PageRank算法的分布式搜索引擎技术研究[D];大连交通大学;2013年
4 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
5 刘红莲;基于链接分析的搜索引擎排序算法研究[D];四川师范大学;2010年
6 李世明;专业搜索引擎中信息过滤的研究与实现[D];北京化工大学;2005年
7 胡小睿;基于Web挖掘的搜索引擎技术研究[D];武汉大学;2005年
8 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
9 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年
10 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026