收藏本站
《电子科技大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

网页排序中PageRank算法和HITS算法的研究

谢月  
【摘要】:本文对网页排序问题进行了研究。以经典算法:PageRank算法和HITS算法,为研究对象,分别进行了改进。其中在对PageRank算法的改进中,本文提出了将Web网页分为三类,由此调整后得到了结构更简洁的链接矩阵。在对HITS算法的改进中,首先分析了内容权威值的计算公式,并提出了新的权重分配准则。同时,利用PageRank模型中的相关原理对新模型进行了修正,使得得到的新模型保持了解的存在性和唯一性。本论文主要内容如下: 1.介绍了本论文关于网页排序的选题背景,以及网页搜索在现实生活中的研究意义。对常用的PageRank算法和HITS算法,给出了详细的建模思想和相关的数学理论。网页排序问题实际上是对线性方程组的求解问题,因此在研究网页排序问题时,是将实际问题转化为数学方法中对大型矩阵的求解问题。此外,本文分别探讨了这两个算法的改进方向和现阶段成果。 2.对PageRank算法我们主要做了两方面的改进。首先,根据相关文献中得到的结论:网络链接图存在有“嵌块结构”(a nested block structure),提出了对网页节点进行分类的思想。一般情况下,网页通常被分为两类:悬虚节点(dangling nodes)和非悬虚节点(nondangling nodes),而本文对将网页分为了三类:悬虚节点(dangling nodes)、公共节点(common nodes)和普通节点(general nodes)。相应的对链接矩阵进行置换后,得到了结构更简洁的链接矩阵。然后,将大型链接矩阵分解为多个子块,并在每次迭代中实行并行计算。数值实验证明了当有合适的块结构存在时,该算法能加快对网页排序向量的计算,而且当公共节点越多的时候优势越明显。 3.在对HITS算法的改进中,本文根据内容权威值(authority)和共同被引用参数(co-citation)之间的关系,定义了两个网页之间的相关性。即如果网页i与网页j同时被多个网页所引用,那么这两个网页必然有一定的相关性。两网页同时被引用的网页数目越多,说明相关性越强。相关性越强的两网页,给对方分配的权值比例应该越大。由此分析基础上,本文提出了一种基于相关性的权重分配方案。然后进一步结合权重单位化处理和随机浏览原理对新模型进行了修正。在建立的新模型(MBCC)中,相关性越强的网页,得到的权值比例就越大,而不仅仅依赖于出链。新模型结合了PageRank模型和HITS模型的特点。数值实验说明了MBCC的排序结果和HITS模型的排序结果中前20排名相似度很高。与此同时,本文运用了PageRank模型中的修正方法,保证了MBCC模型中内容权威值向量的存在性和唯一性。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.092

【参考文献】
中国期刊全文数据库 前2条
1 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
2 杨思洛;搜索引擎的排序技术研究[J];现代图书情报技术;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 周健;杜文鹏;周建丁;李丽;;厌氧流化床处理白酒废水的动力学研究[J];安徽农业科学;2010年08期
2 张崇;李作武;;最佳拟合曲线在轮重测试仪中的应用[J];兵工自动化;2007年02期
3 邓学正;杨大利;侯凌燕;;无线显示适配器码率控制算法与FPGA实现[J];北京信息科技大学学报(自然科学版);2011年01期
4 王鑫磊;张皓;李振华;;光伏最大功率跟踪的分析与改进[J];北京印刷学院学报;2010年06期
5 刘刚;黄廷祝;;三对角与五对角Toeplitz矩阵求逆的算法[J];纯粹数学与应用数学;2010年02期
6 严刚峰;黄显核;李思明;;排队过程的仿真研究[J];成都信息工程学院学报;2008年04期
7 楚恒;王汝言;朱维乐;;DCT域遥感影像融合算法[J];测绘学报;2008年01期
8 刘辉;;论二阶矩过程均方可积的条件[J];河南财政税务高等专科学校学报;2007年02期
9 罗仁泽;冉瑞生;王汝言;;基于奇异值分解的基图像的人脸识别[J];电讯技术;2008年02期
10 胡乡峰;卫金茂;;基于奇异值分解(SVD)的图像压缩[J];东北师大学报(自然科学版);2006年03期
中国重要会议论文全文数据库 前2条
1 高文华;黄自永;;基于非线性动力学和回归分析相结合的滑坡预测[A];第二届全国环境岩土与土工合成材料技术研讨会论文集(一)[C];2008年
2 邹杰宇;卢亚雄;黄子强;王俐;蔡宁;;基于改进GS算法的衍射光学光束整形元件的设计[A];2006年全国光电技术学术交流会会议文集(B 光学系统设计与制造技术专题)[C];2006年
中国博士学位论文全文数据库 前10条
1 荆燕飞;线性方程组迭代法与预条件技术及在电磁散射计算中的应用[D];电子科技大学;2010年
2 王志颖;复杂装备智能机内测试技术研究[D];电子科技大学;2011年
3 杨予昊;自旋目标运动成像与静止目标凝视成像方法及关键技术研究[D];中国科学技术大学;2011年
4 严刚峰;基于动力系统模型的振荡器相位噪声分析的方法研究[D];电子科技大学;2011年
5 何十全;非均匀复杂结构目标电磁散射理论建模与高效算法研究[D];电子科技大学;2011年
6 贾可新;通信侦察中的信号分选算法研究[D];电子科技大学;2011年
7 宋会英;电子束光刻的Monte Carlo模拟及邻近效应校正技术研究[D];山东大学;2006年
8 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
9 张海林;基于逆向工程技术的体表器官仿真修复重建研究[D];中国协和医科大学;2007年
10 高阳;成像制导中的图像预处理及目标识别技术研究[D];西北工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 林相君;基于Agent的无线传感器网络自律管理模型与应用[D];哈尔滨工程大学;2010年
2 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
3 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
4 陈萍;随机Cohen-Grossberg神经网络模型的若干问题研究[D];长沙理工大学;2010年
5 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
6 罗嘉;一类基因调控网络的定性分析[D];武汉科技大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 吴曈;基于微扰理论的集成结环行器设计方法研究[D];电子科技大学;2011年
9 韩华德;电磁场有限元分析中大型稀疏线性矩阵方程的求解[D];电子科技大学;2011年
10 郭阳;高效射频功率放大器数字预失真关键技术研究[D];电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前5条
1 李育嫦;搜索引擎中完善关键词检索功能的探索[J];图书与情报;2003年05期
2 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
3 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
4 李子臣;;搜索技术的现状及发展前景[J];情报科学;2007年07期
5 傅欣;第三代搜索引擎的智能化趋势研究[J];现代图书情报技术;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
2 吴江;使用超链分析技术的搜索引擎[J];图书情报工作;2004年07期
3 洪田玉;陈志刚;;一种跨语言的自动摘要技术[J];电脑与信息技术;2009年04期
4 何晓阳,吴强,吴治蓉;HITS算法与PageRank算法比较分析[J];情报杂志;2004年02期
5 王梅;;搜索引擎中的web链接算法研究与改进[J];电脑知识与技术;2009年24期
6 姜博;;网页PageRank算法分析及主题相关性的改进策略[J];中国科技信息;2010年22期
7 吴春旭,郭磊;Web结构挖掘的PageRank算法改进[J];情报杂志;2005年10期
8 王玉珍;;Google的PageRank技术分析[J];电脑学习;2007年05期
9 张禹;;Web结构挖掘算法的比较改进研究[J];硅谷;2009年19期
10 陈学进;;网络结构挖掘算法研究[J];计算机技术与发展;2009年05期
中国重要会议论文全文数据库 前10条
1 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
3 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
5 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
6 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 刘松彬;都云程;施水才;;基于分解转移矩阵的PageRank迭代计算方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
10 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
4 路人甲;在网页上圈圈点点[N];电脑报;2004年
5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年
6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年
7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年
8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年
9 山东 姜元学;网页文字无法复制的破解[N];电脑报;2002年
10 武功;捕捉网页中的“蝴蝶”[N];电脑报;2005年
中国博士学位论文全文数据库 前10条
1 王菁华;文本中知识的获取[D];北京邮电大学;2008年
2 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
3 毛照昉;面向客户价值和精/敏战略的制造供应网络绩效评价研究[D];天津大学;2006年
4 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
5 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
6 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
7 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
9 黄小广;港美经济关系研究[D];暨南大学;2008年
10 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 谢月;网页排序中PageRank算法和HITS算法的研究[D];电子科技大学;2012年
2 姜玥旭;PageRank算法的改进及在生物网络数据上的应用[D];吉林大学;2012年
3 赵波;PageRank算法在非网页检索问题中的应用[D];复旦大学;2010年
4 刘红莲;基于链接分析的搜索引擎排序算法研究[D];四川师范大学;2010年
5 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年
6 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
7 田浩;基于PageRank值的文本相似度改进模型[D];湖北工业大学;2010年
8 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年
9 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年
10 高宝军;Web结构挖掘中PageRank算法优化研究[D];兰州大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026