收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

网页抓取策略研究

翁岩青  
【摘要】: 随着Web上信息的爆炸性增长,人们无法直接而准确地定位感兴趣的资源,越来越多地依赖搜索引擎。然而,由于Web的规模巨大,任何一个网络爬虫均无法获取Web上的所有网页。既然不能抓取到全部网页,那么就需要网络爬虫在有限的时间内尽可能多地抓取较为重要的网页。网页抓取策略就是研究以怎样的顺序来访问Web上的网页以使得网络爬虫能够优先获取Web上的重要页面。 本文首先对构建高效率网络爬虫所需的关键技术进行深入研究,其中URL调度器决定了网络爬虫抓取网页的顺序,是实现网页抓取策略的主要功能组件。接着在分析多种网页重要度评定标准的基础上,选取基于PageRank的链接分析评定标准作为衡量网页重要度的依据。PageRank技术充分利用了网页间的超链接信息,综合考虑了一个网页的反向链接数目和质量,客观定义了其在整个Web上的相对重要性。最后,通过对不同网页抓取策略的研究,发现一个好的网页抓取策略在能够优先获取重要页面的同时,还需满足抓取速度,对抓取站点的礼貌性和均衡性的要求。然而,现有的网页抓取策略均不能很好的同时满足这些要求。因此,本文提出了一种综合权重网页抓取策略,采用两级优先级调度策略。站点级的调度可以满足礼貌性和均衡性的要求,网页级的调度通过引入历史信息机制,可以获得质量更高的网页。 本文设计和开发了WebCrawler网络爬虫以获取实验所需的数据集,并在其基础上,采用虚拟抓取的方式来对比不同的网页抓取策略。由于Web动态变化的特点,这也使得只有虚拟抓取才能保证不同的网页抓取策略可以在等同的条件下进行对比。实验表明,综合权重网页抓取策略在保证抓取速度,礼貌性和均衡性的前提下,获得了更好的网页质量。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
2 石如钢;;我为产品写说明 配图抓取有一套[J];电脑爱好者;2011年10期
3 王学林;葛兆斌;孙洁;李倩;;基于积分I+模糊PD并行的果蔬高速抓取控制[J];江苏农业科学;2011年03期
4 王霞;;系统热键助HyperSnap一臂之力[J];微电脑世界;2011年07期
5 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
6 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
7 刘洋洋;;“最被误解的语言”焕发全新活力[J];程序员;2010年08期
8 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
9 我心飞翔;;任何连环画 掌上都能看[J];电脑爱好者;2011年05期
10 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 徐山川;高万林;张树亮;卢帅州;;一种按需配置的Web文本信息定向抓取方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
5 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
8 于清洋;李斌;刘玉旺;;一种钢丝绳间接驱动的灵巧手运动学模型分析及验证[A];第八届全国信息获取与处理学术会议论文集[C];2010年
9 刘铖;田强;胡海岩;;卫星本体-柔性抓取机械臂-柔性太阳翼耦合系统动力学与控制研究[A];第七届全国多体系统动力学暨第二届全国航天动力学与控制学术会议会议论文集[C];2011年
10 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 记者 徐敏 潘旭 肖春飞;“海龙”下潜3000米抓取“黑烟囱”[N];解放日报;2009年
3 梁东红 林琦蔚;如何抓取保候审案件的跟踪督办[N];人民公安报;2002年
4 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
5 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
6 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
7 本报记者 邹韧;先知先觉 先行先为[N];中国新闻出版报;2010年
8 本报记者 马国顺 文洁;看见未来[N];甘肃日报;2011年
9 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
10 本报记者 黄智军;一淘网开放搜索服务 对接非淘宝商家[N];计算机世界;2010年
中国博士学位论文全文数据库 前10条
1 李智国;基于番茄生物力学特性的采摘机器人抓取损伤研究[D];江苏大学;2011年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 魏承;空间柔性机器人在轨抓取与转移目标动力学与控制[D];哈尔滨工业大学;2010年
4 毛金城;重载操作机夹持器可变约束抓取建模与夹持性能研究[D];华中科技大学;2011年
5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 寇春花;主题爬虫的研究与实现[D];东北大学;2008年
2 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 沈洲;基于用户访问意图的网页动态建模技术的研究[D];东北大学;2008年
8 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
9 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
10 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026