收藏本站
《大连海事大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分布式计算的网络爬虫技术研究

么士宇  
【摘要】:随着互联网技术的发展,网站技术日趋成熟,互联网上的站点也越来越多,信息量非常巨大,而人们的工作和生活中对互联网上的信息需求也越来越大,搜索引擎技术的重要性愈加明显。就目前来看,搜索引擎技术已经深入人心,贴近人们的生活,对人们生活影响越来越大,而网络爬虫是搜索引擎中至关重要的一个模块,它影响着搜索引擎的方方面面。 基于单机的网络爬虫的抓取能力有限,已经不能完成当前的链接抓取更新的需求,这样就促使了基于分布式系统网络爬虫技术的出现,构建一套大区域、分布广的分布式集群系统,多台机器有效的合作、分工,可以有效的消除站点分散,各网间访问速度慢对网页抓取的影响,提高大数据量的计算速度,提高了网络爬虫的性能。分布式的另一个应用就是分布式存储,存储设计也是网络爬虫设计的一个很重要的环节,抓取到得的网页数据的存储方式影响了整个系统的性能,由于其数据吞吐量巨大,简单的数据库存储已经不能满足其需求,因此最好的解决办法就是采用分布式集群存储的方式。 本课题在对上述技术研究的基础上,利用Java编程语言在Linux平台上实现了一套基于Hadoop分布式系统的网络爬虫,本系统具有抓取速度快、覆盖面广、可扩展性好、移植性强的特性,本文从分布式计算和分布式存储两个方面,对分布式网络爬虫系统的架构整体设计以及模块的具体实现流程进行了详细的研究和论述,给出详细的分布式网络爬虫的设计方案、系统整体原理架构图,各模块的MapReduce实现方式,以及各具体模块的具体实现流程。 最后,为了验证该分布式网络爬虫的特性,搭建了一套Hadoop分布式系统测试环境,从功能性测试、性能测试和可扩展性测试三个方面出发,设计了详细的系统测试方案,依据该方案实施了实际数据的测试,并对测试数据进行了分析得出了系统的具体性能参数。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前4条
1 杨洁;基于渗透测试的分布式跨站漏洞挖掘系统的设计与实现[D];西安电子科技大学;2012年
2 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
3 薛羽;无线城市Web数据采集系统的设计与实现[D];北京邮电大学;2013年
4 杨雅琴;基于组合分类策略的中英文情感分析系统研究与实现[D];华北电力大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 张元丰;董守斌;张凌;陈晓志;;基于Map/Reduce的网页消重并行算法[J];广西师范大学学报(自然科学版);2007年02期
2 贺广宜,罗莉;分布式搜索引擎的设计与实现[J];计算机应用;2003年05期
3 姚树宇,赵少东;一种使用分布式技术的搜索引擎[J];计算机应用与软件;2005年10期
4 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
5 赵金海;赵西安;;国外网络搜索引擎优秀资源现状述评——搜索引擎网站、论坛、新闻和学术会议资源[J];现代情报;2008年01期
6 吴宝贵;丁振国;;基于Map/Reduce的分布式搜索引擎研究[J];现代图书情报技术;2007年08期
7 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期
中国硕士学位论文全文数据库 前3条
1 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年
2 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
3 付志超;基于Map/Reduce的分布式智能搜索引擎框架研究[D];武汉理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
3 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
4 傅巍玮;李仁发;刘钰峰;黄松立;;基于Solr的分布式实时搜索模型研究与实现[J];电信科学;2011年11期
5 刘寿强;孟敬;;基于JavaLucene的分级鉴权资源管理系统的研究与实现[J];计算机安全;2012年04期
6 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期
7 许洪超;袁培燕;;智能搜索引擎系统的建模分析[J];福建电脑;2009年08期
8 焦蕾;殷锋社;;基于JAVA技术的搜索引擎的研究与实现[J];电子设计工程;2012年07期
9 孙志东;潘懋;孙知信;闫秋艳;;轻量级自适应搜索引擎的设计与实现[J];广西师范大学学报(自然科学版);2007年02期
10 吴翠雁;黄建波;李浩;袁华;;基于主动哈希和多级缓存的域名解析策略[J];广西师范大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前3条
1 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
2 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
3 王斌;;移动互联网定位技术分析及融合方式探讨[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
中国博士学位论文全文数据库 前6条
1 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
2 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
3 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
6 陈军;基于G/S模式的空间分析云服务关键技术研究[D];成都理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
2 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
3 凌辰;基于Web服务器远程无缝迁移技术的研究与应用[D];天津理工大学;2010年
4 陈冰泉;面向农产品信息的主题搜索引擎与信息推荐[D];华南理工大学;2010年
5 李永瑾;基于本体的MPI+OpenMP并行检索研究与应用[D];西北大学;2011年
6 曹仲伟;FTP搜索引擎的关键技术研究[D];湖北工业大学;2011年
7 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
8 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
9 鱼健榕;基于Nutch的搜索引擎系统的研究与实现[D];北京邮电大学;2011年
10 施岩;云计算研究及Hadoop应用程序的开发与测试[D];北京邮电大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 范渊;;Web应用风险扫描的研究与应用[J];信息安全与技术;2010年09期
2 张亮;;基于HTMLParser和HttpClient的网络爬虫原理与实现[J];电脑编程技巧与维护;2011年20期
3 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
4 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
5 辛日华;HowNet的构成分析与研究[J];呼伦贝尔学院学报;2003年03期
6 张紫琼;叶强;李一军;;互联网商品评论情感分析研究综述[J];管理科学学报;2010年06期
7 陈龙;范瑞霞;高琪;;基于概念的文本表示模型[J];计算机工程与应用;2008年20期
8 肖明忠;代亚非;;Bloom Filter及其应用综述[J];计算机科学;2004年04期
9 李成华;张新访;金海;向文;;MapReduce:新型的分布式并行计算编程模型[J];计算机工程与科学;2011年03期
10 昝红英;左维松;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[J];计算机工程与科学;2011年05期
中国博士学位论文全文数据库 前2条
1 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
2 程明智;电子商务环境中信息快速加密及内容安全管理相关技术研究[D];北京邮电大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
2 秦英;基于行为的跨站脚本攻击检测技术研究与实现[D];西安电子科技大学;2010年
3 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
4 黄亿华;基于情感评价单元的商品评论分析研究[D];南京大学;2011年
5 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年
6 楼佳;中文文本聚类的评价与改进研究[D];杭州电子科技大学;2009年
7 王凯;MapReduce集群多用户作业调度方法的研究与实现[D];国防科学技术大学;2010年
8 周城;面向中文Web评论的情感分析技术研究[D];国防科学技术大学;2011年
9 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年
10 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 庞博;Web应用安全网关部分功能的设计与实现[D];北京交通大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 侯孟书,卢显良,周旭,詹川;非结构化P2P系统的路由算法[J];电子科技大学学报;2005年01期
3 雷葆华,杨明川;P2P技术的组网模式与业务模式探讨[J];电信技术;2004年11期
4 任瑞娟,李洪建;中文WWW搜索引擎比较研究[J];大学图书馆学报;1999年05期
5 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
6 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
7 胡双双;秦杰;;搜索引擎技术及其发展趋势[J];福建电脑;2008年06期
8 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
9 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
10 苏频;李凡长;;基于DFS的并行粒计算模型及其应用[J];广西师范大学学报(自然科学版);2006年04期
中国博士学位论文全文数据库 前2条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
2 潘谦红;分布式信息检索的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
中国硕士学位论文全文数据库 前7条
1 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
2 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
3 凌海云;基于语义网的智能搜索技术的研究与实现[D];电子科技大学;2004年
4 刘红星;分布式系统中的文本信息检索技术研究[D];清华大学;2004年
5 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
6 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
7 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
2 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
3 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
4 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
5 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
6 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
7 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
8 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
9 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
10 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 刘祥涛;龚才春;曾依灵;白硕;鲍旭华;;Kad网络节点共享资源探测分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前9条
1 Victor;电子邮件跟踪服务面世[N];人民邮电;2004年
2 伍裕标;网络监控STOP![N];中国电脑教育报;2003年
3 王猛祥 徐明华;六度分隔:下一代网络交际[N];中国计算机报;2004年
4 商建刚;当你电子邮件地址被拍卖(上)[N];中国计算机报;2001年
5 记者 郭丽君;封堵涉黄网站3500个[N];光明日报;2010年
6 记者 邵素宏;中移动新型拨测系统“扫黄”显威力[N];人民邮电;2010年
7 马季;网络文学遭遇“版权困境”[N];人民日报海外版;2010年
8 记者 曹莉;泛华北(环渤海)工程信息共享平台功能升级[N];中国建设报;2011年
9 上海 陈曦;谷歌之后,谁来制衡百度?[N];电脑报;2010年
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
2 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
4 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
5 段兵营;搜索引擎中网络爬虫的研究与实现[D];西安电子科技大学;2014年
6 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年
7 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
8 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
9 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
10 赵艳;基于网络爬虫的跨站脚本漏洞动态检测技术研究[D];西南交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026