收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于链接分析的优质网站排名算法

李剑楠  
【摘要】:搜索引擎能够从数以亿计的网页中挑选出与查询请求最相关的网页集合,使用户对万维网的使用更加便利。作为搜索引擎的核心部件,网页排名算法决定了搜索到的相关结果以何种顺序呈现给用户,其性能的优劣将会直接影响搜索引擎的服务质量和用户的搜索体验。目前,搜索引擎正面临着日益严重的网页作弊问题—网站创建者利用现有排名算法的缺陷,通过欺骗手段达到虚假提高网站中网页排名的目的。作弊网页质量不高,甚至包含虚假信息,严重影响了日常的搜索服务。网页作弊已成为当前搜索引擎研究必须解决的几个关键问题之一。在此背景下,本文对网页排名作弊及检测和抑制方法展开研究,在全面分析和总结现有方法的基础上,提出了新的网页排名算法。本文的主要工作和创新概括如下: (1)在分析了基于内容和基于链接的网页排名算法基础上,介绍了针对这两种排名算法的各种作弊手段,并对基于信任传播等原理的主要网页排名作弊检测方法进行了深入分析; (2)提出了一种新型网页相似度衡量方法,该方法基于网页的“入链”和“出链”,借鉴社会网络分析中的“社交圈”概念定义给定两个网页的链接相似度,用于网页作弊检测和抑制。考虑到精确计算以上相似度的时间复杂性高,不适合处理规模庞大的万维网,进而基于概率计数(probabilistic counting)算法提出了一种近似的相似度计算方法,将精确计算的时间复杂度和空间复杂度分别由O(n3logn)和O(n2)降低至O(n2)和O(n),其中n表示网络的节点数。实验结果表明:该近似算法能够以牺牲较小计算精度的代价显著降低网页相似度计算所需的时空开销。 (3)提出了基于入链来源分析的优质网站排名算法ISA-PR(Inlink SourceAnalysisbased PageRank)。该算法的基本思想是:在计算网页的权威性时,现有的网页排名算法和网页作弊检测算法仅关注网页的入链数量和质量,而忽略了入链的来源—另一种客观评价网页权威性的重要信息。相比于真正的权威页面(具有大量且来源广泛的入链),通过作弊手段提升排名的网页往往不具有入链来源广泛的特征。基于以上思想,本文分别提出了入链来源广泛性判断方法,超链接权值调整方法,进而提出综合以上方法与PageRank算法的优质网站排名算法ISA-PR。在多个基准数据集上的实验结果表明:与同类算法相比,在寻找优质页面和抑制网页排名作弊两方面,ISA-PR算法均表现出好的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 操惊雷;;网页中信息部分自动识别研究[J];黄冈师范学院学报;2009年03期
2 ;站点扫描[J];计算机周刊;1999年17期
3 ;网站优化,从图像开始——使网页变“苗条”的技巧[J];计算机周刊;1999年19期
4 陈明丽;让网页更靓丽——色彩设计经验点滴[J];计算机与网络;2002年22期
5 周国卿;尽情网上行[J];网络与信息;1999年12期
6 谢春忠;努力搞好网站建设 大力发展因特网业务[J];广西通信技术;2000年04期
7 果茶;;防止E-mail地址被掳获三招[J];电脑迷;2005年16期
8 林宝山;文献检索网站设计和制作[J];情报科学;2001年10期
9 Jcat;;JSP网站换肤术[J];软件;2001年07期
10 史文崇;;鼠标定位即时显隐导航栏的创建[J];河北科技师范学院学报;2006年02期
11 二手三好街;找个网站当黑客[J];电脑爱好者;2005年01期
12 ;热门站点[J];电讯技术;1998年05期
13 ;让邮件释放多占的空间[J];计算机与网络;2004年08期
14 杨康明;;利用数据库技术构建图书馆网站[J];内蒙古科技与经济;2009年01期
15 燕宏;;网络Logo的设计原则[J];发展;2009年12期
16 邓媛;刘东苏;李克然;;标签聚类在政府门户网站信息资源分类中的应用[J];情报理论与实践;2011年04期
17 吴泽平;四款网络新软件[J];互联网周刊;2000年24期
18 亚紫;9大减肥网站各自各精彩[J];电脑与电讯;2000年08期
19 洒玉波;浅议网页艺术设计流程[J];现代技能开发;2003年05期
20 丛蓉,王秀坤,吴军,周岩;基于Web-LogMining寻找目标网页最优期望定位[J];计算机工程与应用;2004年34期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
6 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
8 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
9 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 唐煜;均匀设计的组合性质及其构作[D];苏州大学;2005年
2 余金华;电阻层析成像技术应用研究[D];浙江大学;2005年
3 Zhao Peixin;[D];山东大学;2005年
4 吕翔;波长路由光网络相关问题研究[D];浙江大学;2006年
5 申远;一些求解结构型优化的一阶算法[D];南京大学;2012年
6 赵裕众;生物序列分析算法的研究及其应用[D];中国科学技术大学;2010年
7 杨奎元;基于深层结构的图像内容分析及其应用[D];中国科学技术大学;2012年
8 Shaker Kazem Ali(沙克);应用于疾病诊断的图像分析方法[D];中南大学;2010年
9 尹华罡;基于海量时空数据的路线挖掘与检索[D];中国科学技术大学;2012年
10 石磊;基于数据的学习:埃尔米特算法与黎曼流形上的法向量估计[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李剑楠;基于链接分析的优质网站排名算法[D];吉林大学;2012年
2 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
3 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
4 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
5 王祥冰;个人网页人际意义构建的多模态分析[D];西南交通大学;2012年
6 江亮;SVM算法研究及其在交流控制系统中的应用[D];西北工业大学;2005年
7 刘洋;聚合通信算法测试分析与理论研究[D];中国科学院研究生院(软件研究所);2005年
8 高翔;嵌入式三维图形引擎的设计与实现[D];电子科技大学;2005年
9 朱晓丽;QoS组播路由问题研究[D];山东师范大学;2005年
10 杨浩军;计算机软件专利保护问题研究[D];中国政法大学;2006年
中国重要报纸全文数据库 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 实习记者 李静 实习生 赵偲;SNS未来盈利模式的几个猜想[N];经济参考报;2010年
3 记者 侯莎莎;数百万网页却仍在进行彩票预测[N];北京日报;2008年
4 ;Sophos:恶意软件美国最多[N];中国计算机报;2008年
5 驻欧记者 敖军;德拟立法打击儿童色情 网络手机传播都要严惩[N];解放日报;2009年
6 广西 罗才枝;上网时为何占用这么多资源[N];电子报;2008年
7 林嘉澍;Google:0.2秒和80亿张网页[N];经济观察报;2006年
8 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
9 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
10 路人甲;在网页上圈圈点点[N];电脑报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978