收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

聚焦爬行系统的设计—算法视角

谭思亮  
【摘要】:爬虫是一类网络信息采集系统,它从一些给定的URL(称为种子URL集合)出发,通过下载URL对应的网页、分析页面内容、并跟随其中的链接来递归遍历整个Web。聚焦爬虫是一类特殊的爬虫,其主要目标是在有限的时间与网络带宽限制下尽可能多的采集与指定主题相关的高质量网页,忽略与主题无关或低质量的链接。目前,聚焦爬虫已在主题搜索引擎、数字图书馆建设和站点结构分析等方面取得越来越广泛的应用。 本文首先介绍了聚焦爬虫模型,对该领域中重要而富有创新性的研究成果做一个大致的介绍;接着深入探讨了聚焦爬行研究中的几个关键要素,包括如何设计好的Web分析算法来评估网页与主题的相关性与重要性(核心问题)、如何选择搜索策略以使URL访问顺序最优,如何获取好的种子URL集合,如何更好的表示主题。基于这些讨论,本文提出了一种可利用之前爬行数据自动改进其分析算法、主题表达与种子URL集合的聚焦爬虫,并深入讨论了其首次爬行和再次爬行算法。实验结果表明该算法的收获率(准确率)在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王黎;制作网页的方法[J];沈阳大学学报;2001年02期
2 侯秀峰;浅谈个人网站的建立[J];集宁师专学报;2004年03期
3 余杰;;制作个性网页秘技三招[J];家庭电子;2002年01期
4 何拥军;龚发根;;基于Web链接结构的应用及分析[J];软件导刊;2009年11期
5 郭倩;;找出“隐藏”的网页[J];电脑校园;2002年02期
6 斌子;网页沙龙[J];网络与信息;2002年02期
7 吴江;使用超链分析技术的搜索引擎[J];图书情报工作;2004年07期
8 柯和平;Web网页基本元素的设计原则与技巧[J];现代教育技术;1999年04期
9 士诚;FrontPage 2000主页制作速成(一) [J];网络与信息;2000年07期
10 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
11 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
12 张兴华,赵英豪,臧爱军;接触网页制作[J];石家庄师范专科学校学报;2001年04期
13 鸣涧;从无到有——菜鸟建站(之四)[J];电脑爱好者;2001年20期
14 李玉虹;网页中多色链接的实现[J];电脑学习;2004年05期
15 王小勇;Word 97网页制作速成[J];软件世界;1998年01期
16 牟连泳,崔美玉;利用FrontPage制作网页[J];微机发展;1999年05期
17 周博文;;网页的编辑和发布[J];互联网天地;2005年07期
18 吕津,赵明生;对因特网上自动信息提取的研究[J];数据通信;2000年01期
19 王健;关于网页制作的研究与实践[J];松辽学刊(自然科学版);2000年04期
20 刘冰;如何在Dreamweaver中实现超链接[J];多媒体世界;2000年06期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 司响;李秋锐;宋士超;;钓鱼网页特征向量提取方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
10 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
中国博士学位论文全文数据库 前10条
1 窦强;分布式强实时系统中可调度性分析算法的研究[D];国防科学技术大学;2001年
2 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年
3 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
4 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
5 张玉贵;烟气轮机叶片振动的非接触式在线监测关键技术研究[D];天津大学;2008年
6 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
7 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
8 王云飞;东海赤潮监测卫星遥感方法研究[D];中国海洋大学;2009年
9 陈丹;图像掩密安全性模型和通用掩密分析技术研究[D];西安电子科技大学;2006年
10 杨家轩;独立分量分析算法及其在多用户检测中的应用[D];大连海事大学;2008年
中国硕士学位论文全文数据库 前10条
1 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
2 吕克强;Web超链分析及其在搜索引擎中的应用研究[D];中国石油大学;2008年
3 张纯辉;军训网主题搜索引擎技术研究[D];长春理工大学;2009年
4 郑州斌;基于内容与链接分析的主题相关网站排序算法的研究[D];浙江大学;2008年
5 倪贤贵;聚焦爬虫技术研究[D];江南大学;2008年
6 张利国;基于引力模型的链接分析算法研究[D];大连理工大学;2007年
7 李京京;主题爬虫的关键技术研究[D];吉林大学;2008年
8 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
9 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年
10 段平;面向web文本挖掘的主题搜索技术研究[D];西安电子科技大学;2008年
中国重要报纸全文数据库 前10条
1 河北 吴冬;“Tab”键在IE中的妙用[N];电脑报;2002年
2 鸣涧;网页的编辑[N];中国电脑教育报;2002年
3 河南 张金贵;让网页动起来[N];电脑报;2001年
4 馒头;自己做网页[N];华北电力报;2000年
5 周进;快速保存网页图片[N];中国电脑教育报;2003年
6 内蒙古 降峰;让你的网页挂上“笑脸”[N];电脑报;2001年
7 爱上一条鱼;框架网页的应用技巧[N];电脑报;2004年
8 上海 阿捷;建立自己的网站[N];中国电脑教育报;2000年
9 ;让网页自动弹出下载任务栏[N];电脑报;2001年
10 江苏 沈洛阳;运用FrontPage美化你的网页[N];电脑报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978