收藏本站
《复旦大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

PageRank算法在非网页检索问题中的应用

赵波  
【摘要】: 在1998年,网络信息检索领域有两种重要的网页排序模型被提出,它们分别是HITS(Hypertext Induced Topic Search)[5]和PageRank[11]。PageRank由于其固有的对恶意网页的抗干扰性和检索无关的特点逐渐成为主流的网络信息排名方法。PageRank的这两个优点正是HITS的弱点。由于商业利益的原因,有很多的公司采用各种恶意网页技术来欺骗搜索引擎的排序系统从而提高自己网页的排名。如果搜索引擎检索相关的话,候选页面和排序需要为每个检索词来单独计算,这样造成严重的系统负担的同时也降低了检索返回速度。检索无关的搜索引擎通过事先计算出各个网页的重要性从而在有查询请求时快速的返回排序好的相关网页。 随着计算机性能的逐步提高和计算机硬件成本的降低,越来越多的多媒体信息如图片,视频等被出现在互联网上。不同于文本检索,多媒体信息的检索长久以来一直没有有效可行的办法,大多数是沿用基于文本的检索技术来利用多媒体信息周围的文字信息对多媒体信息本身进行排序。这样不可避免的会导致对不同检索词检索质量的参差不齐,甚至出现很多跟检索无关的检索结果。近年来,很多研究人员通过利用多媒体信息本身的内容来提高这类信息的检索质量。对网络图像检索来说,Fergus[1]等人首先采用提取搜索引擎所返回的部分结果的图像内容,在利用这些图像信息来对部分返回图像重新排序,实验证明这样的方法明显的改善了图像检索的质量。Jing [2,3,4]等人在此基础上,针对网络图像种类繁多的特点提出了VisualRank来改善网络图像的检索质量。VisualRank首先提取出图像本身的局部信息,然后利用locality-sensitive hashing[15]来对这些信息配对。这样会产生一个图像详细关系图,最后在这个图上利用PageRank对每个图像计算PageRank得分。VisualRank的适用返回比Fergus等人提出的方法更广,但其提出的使用locality-sensitive hashing的图像局部特征匹配方法将会导致内存需求线性的增长。关于不同主题的网络图像集的质量又是千差万别的,VisualRank并没有这种区分能力,对所有的图像特征都进行了匹配。为了克服这两个问题,本文提出了基于网络图片显著特征的网络图片检索方法,首先筛选出那些出现频率较高的特征点,以这些特征点作为图像特征匹配的目标。 因为PageRank本身是通过一些节点本身的相似性来对这些节点进行重要性排序,所以它应该有很广的应用范围。针对于目前GPU技术的发展,GPU变得越来越复杂,并且各个模块的相互关联越来越紧密,本文提出了基于PageRank的GPU性能评估办法。
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 杨炳儒,李岩,陈新中,王霞;Web结构挖掘[J];计算机工程;2003年20期
2 付真真;陆伟;;基于关键词的搜索引擎优化策略及效果分析[J];现代图书情报技术;2009年06期
3 张亚男;王鑫;;基于内容管理的网站构建系统的研究[J];硅谷;2010年23期
4 陈谦;;PageRank算法在孤立点检测中的应用[J];微型机与应用;2010年24期
5 李长玲;翟雪梅;;基于PageRank的引文分析方法探讨[J];情报理论与实践;2007年01期
6 张毅;张冬梅;;搜索引擎PageRank算法的比较与改进[J];科技创新导报;2008年21期
7 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
8 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
9 张佳;梁少华;;Web结构挖掘与其基于超链接结构的算法[J];科技信息;2007年02期
10 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 陈小飞;王轶彤;冯小军;;一种基于网页质量的PageRank算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 李文;李淼;张建;朱海;陈雷;;基于混淆网络和PageRank的Nbest重排序[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘菁菁;林鸿飞;杨志豪;;基于PageRank和锚文本的网页排序研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 刘强国;左志宏;董祥千;;基于WEB超链接分析算法的研究综述[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
9 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者 马文方;匠心在胸[N];中国计算机报;2008年
2 喻宁;群雄逐鹿搜索经济[N];经理日报;2004年
3 文/大海;微软亚研院“微妙转向”[N];计算机世界;2004年
4 ;图像检索新技术[N];中国知识产权报;2000年
5 复旦大学国际政治系博士 沈逸;谷歌的权力与生意[N];东方早报;2010年
6 本报记者 王翌;Google的左手[N];计算机世界;2004年
7 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;实验与实用系统[N];计算机世界;2003年
8 文/老鬼阿定;微软搜索灵不灵?[N];计算机世界;2004年
9 本报实习记者 田娴;三大搜索引擎角逐中国市场[N];通信信息报;2004年
10 北京 窦芳芳;给IE加上Google搜索工具条[N];电脑报;2001年
中国博士学位论文全文数据库 前10条
1 王菁华;文本中知识的获取[D];北京邮电大学;2008年
2 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
3 许相莉;基于智能计算的图像检索算法研究[D];吉林大学;2011年
4 陈永健;基于内容的大规模图像检索关键技术研究[D];华中科技大学;2011年
5 雷亮;互联网环境下图像检索若干问题研究[D];重庆大学;2011年
6 陆文婷;图像检索中的特征表示模型和多信息源融合方式的研究[D];北京邮电大学;2012年
7 刘为;基于内容图像检索关键技术的研究[D];吉林大学;2010年
8 段曼妮;图像挖掘在图像检索中的应用[D];中国科学技术大学;2009年
9 王上;基于内容的图像检索与分类若干技术的研究[D];吉林大学;2010年
10 张磊;基于机器学习的图像检索若干问题研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵波;PageRank算法在非网页检索问题中的应用[D];复旦大学;2010年
2 姜玥旭;PageRank算法的改进及在生物网络数据上的应用[D];吉林大学;2012年
3 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年
4 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
5 田浩;基于PageRank值的文本相似度改进模型[D];湖北工业大学;2010年
6 郭庆宝;基于PageRank的搜索引擎优化方法研究[D];山东师范大学;2012年
7 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年
8 高宝军;Web结构挖掘中PageRank算法优化研究[D];兰州大学;2011年
9 冯静;微博用户排名机制的研究[D];燕山大学;2012年
10 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026