聚焦爬行系统的设计—算法视角
【摘要】:爬虫是一类网络信息采集系统,它从一些给定的URL(称为种子URL集合)出发,通过下载URL对应的网页、分析页面内容、并跟随其中的链接来递归遍历整个Web。聚焦爬虫是一类特殊的爬虫,其主要目标是在有限的时间与网络带宽限制下尽可能多的采集与指定主题相关的高质量网页,忽略与主题无关或低质量的链接。目前,聚焦爬虫已在主题搜索引擎、数字图书馆建设和站点结构分析等方面取得越来越广泛的应用。
本文首先介绍了聚焦爬虫模型,对该领域中重要而富有创新性的研究成果做一个大致的介绍;接着深入探讨了聚焦爬行研究中的几个关键要素,包括如何设计好的Web分析算法来评估网页与主题的相关性与重要性(核心问题)、如何选择搜索策略以使URL访问顺序最优,如何获取好的种子URL集合,如何更好的表示主题。基于这些讨论,本文提出了一种可利用之前爬行数据自动改进其分析算法、主题表达与种子URL集合的聚焦爬虫,并深入讨论了其首次爬行和再次爬行算法。实验结果表明该算法的收获率(准确率)在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。
|
|
|
|
1 |
王黎;制作网页的方法[J];沈阳大学学报;2001年02期 |
2 |
侯秀峰;浅谈个人网站的建立[J];集宁师专学报;2004年03期 |
3 |
余杰;;制作个性网页秘技三招[J];家庭电子;2002年01期 |
4 |
何拥军;龚发根;;基于Web链接结构的应用及分析[J];软件导刊;2009年11期 |
5 |
郭倩;;找出“隐藏”的网页[J];电脑校园;2002年02期 |
6 |
斌子;网页沙龙[J];网络与信息;2002年02期 |
7 |
吴江;使用超链分析技术的搜索引擎[J];图书情报工作;2004年07期 |
8 |
柯和平;Web网页基本元素的设计原则与技巧[J];现代教育技术;1999年04期 |
9 |
士诚;FrontPage 2000主页制作速成(一) [J];网络与信息;2000年07期 |
10 |
宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期 |
11 |
雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期 |
12 |
张兴华,赵英豪,臧爱军;接触网页制作[J];石家庄师范专科学校学报;2001年04期 |
13 |
鸣涧;从无到有——菜鸟建站(之四)[J];电脑爱好者;2001年20期 |
14 |
李玉虹;网页中多色链接的实现[J];电脑学习;2004年05期 |
15 |
王小勇;Word 97网页制作速成[J];软件世界;1998年01期 |
16 |
牟连泳,崔美玉;利用FrontPage制作网页[J];微机发展;1999年05期 |
17 |
周博文;;网页的编辑和发布[J];互联网天地;2005年07期 |
18 |
吕津,赵明生;对因特网上自动信息提取的研究[J];数据通信;2000年01期 |
19 |
王健;关于网页制作的研究与实践[J];松辽学刊(自然科学版);2000年04期 |
20 |
刘冰;如何在Dreamweaver中实现超链接[J];多媒体世界;2000年06期 |
|