收藏本站
《北京邮电大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网络爬虫技术的多源下载系统的设计与实现

李蕊  
【摘要】:随着互联网的普及应用以及人们生活水平的提高,越来越多的人们喜欢从互联网上下载资源。现在人们下载资源都需要经过复杂的步骤,不仅效率低下,而且现在的下载工具充斥着大量的广告,如果操作不当,则有可能使用户的电脑陷入死机或者中毒的状态。 本文针对上述问题,设计并实现了一款轻巧易用的小型软件。该软件集搜索,存储展示和下载于一体,不仅能够提供大量可下载的URL,而且能够提高下载速率。 本文首先介绍了网络爬虫技术和超文本传输协议HTTP,并在传统网络爬虫的基础上进行了扩展。传统的网络爬虫技术只能抓取静态的URL,而对大量深藏在深网络中的动态的URL没有抓取,从而损失了很多更有价值的URL。这样导致了下载效率较低,而且不能够提供足够的URL以供多源下载。 本文通过执行JavaScript脚本来解析出深层网络中的动态的URL。执行JavaScript脚本采用的Rhino解析引擎,但是Rhino解析引擎存在两个弊端:一是Rhino无法模拟浏览器内置对象;二是无法解析这些内置对象动态添加的属性和方法。本文对这两个弊端进行了改进,通过添加对DOM操作的支持,使Rhino可以模拟浏览器内置对象。通过修改在浏览器内置对象中的查找方式,使Rhino可以解析浏览器内置对象动态添加的属性和方法。改进之后的Rhino能够解析出更多的URL。 本文的存储和展示模块,主要对可下载的URL进行了分组存储和展示,分组有一定的规则,只有相同的文件类型和文件大小的URL才在一组展示,在展示模块采用定时刷新机制。 本文的下载模块采用的是多源下载的技术。首先从存储和展示模块中得到经过分组的URL,用户点击下载区域之后,对用户选择的URL分组进行精确的判断,只有真正指向同一个文件下载源的URL才作为多源下载的源地址。判断方式是使用从这些URL中下载相同位置的片段,计算这些片段的MD5值,MD5值相同的URL地址才作为源地址
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
2 程菲;汪建海;罗键;;增量更新Crawler进行Web收集方法研究[J];计算机工程与科学;2006年12期
3 朱学芳;韩占校;;一种图像主题网络爬虫的实现方法研究[J];南京师范大学学报(工程技术版);2008年04期
4 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
5 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
6 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
7 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
8 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
9 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
10 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
中国重要会议论文全文数据库 前10条
1 张伦;祝建华;;Maze网络中个体知识分享行为的演变[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
2 朱磊;;迅雷流量的主动识别[A];江苏省电子学会2010年学术年会论文集[C];2010年
3 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
4 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
5 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
10 宋辉;方宗达;;一款智能机器人控制板的软件设计[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 本报记者 贺洁;192万美元罚单震慑非法下载[N];中国计算机报;2009年
2 ;美研究生非法下载30首歌 遭天价罚款67.5万美元[N];网络世界;2009年
3 ;乐迷愿为下载付费[N];新华每日电讯;2010年
4 本报记者 王哲玮;飞流九天:做最精准的移动下载[N];计算机世界;2011年
5 苗子墨;迅雷离线下载的诱惑[N];电脑报;2010年
6 本报记者 王雨檬 编译;英国今年非法下载歌曲超12亿首[N];中国文化报;2010年
7 专栏 陈佼 资深互联网分析人士;今天你“被下载”了吗[N];电脑报;2010年
8 本报记者 胡静;电纸书下载费用高[N];消费日报;2011年
9 李敬;整治BT 治标更要治本[N];计算机世界;2009年
10 南方日报记者 周志坤 杨春 实习生 程陟;上传的是民意 下载的是民主 撬动的是民智[N];南方日报;2011年
中国博士学位论文全文数据库 前10条
1 黄昆;高性能内容过滤与分发技术研究[D];湖南大学;2009年
2 钟海峰;层次p2p存储系统关键技术研究[D];华中科技大学;2011年
3 吕晓鹏;P2P技术在IPv4/IPv6混合网中应用的关键问题研究[D];北京邮电大学;2011年
4 王文艺;一种具有服务质量保证的个性化P2P IPTV系统研究[D];浙江大学;2010年
5 王驰;对等网络传输控制及激励机制研究[D];北京邮电大学;2010年
6 李军;大规模数字内容网络分发关键技术研究[D];北京邮电大学;2009年
7 郭东;P2P网络的动力学建模与算法研究[D];中国科学技术大学;2011年
8 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
9 李致远;移动对等网络安全若干关键技术研究[D];南京邮电大学;2011年
10 孟和;无线内容下载平台中事件流处理应用研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
2 祝建军;视频下载方法及分布式视频抓取系统的设计与实现[D];华南理工大学;2012年
3 费帆;下载及其行为研究[D];上海师范大学;2011年
4 曾智勇;基于边缘缓存的下载加速方案设计与实现[D];中南大学;2010年
5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
6 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
7 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
8 裘杰;下载客户端安全性评价研究[D];哈尔滨工业大学;2011年
9 贾艳艳;基于被动测量的迅雷体系结构及下载策略研究[D];云南大学;2012年
10 周磊;基于多核环境的并行下载系统研究开发[D];西安理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026