收藏本站
《哈尔滨工业大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式网络爬虫技术的研究与实现

苏旋  
【摘要】: 随着Web信息的急速膨胀,各项和Web有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用,人们对于Web信息的要求也越来越高,使得专门负责Web信息采集的网络爬虫技术面临了一个巨大的挑战。国内外的一些大公司对这一问题已经有了很成熟的解决方案,并已投入使用,但是这些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务,它不可能考虑到所有用户的各式各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的面向用户的需求,针对这一情况,本文展开了对国内外的网络爬虫技术的研究。 网络爬虫研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。 然后本文分析了分布式网络爬虫的关节技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配,如何保持重要网页的时新性等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。最后在该网络爬虫上作了一些测试,包括了普通爬行测试和该网络爬虫的一个应用,网站爬行的测试。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前3条
1 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
2 刘东鑫;周斯宁;沈军;;互联网不良信息治理的研究与探讨[J];广东通信技术;2010年12期
3 赵晓;;全文搜索引擎e_Guide的设计与实现[J];电子商务;2013年11期
中国硕士学位论文全文数据库 前10条
1 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
2 王甲坤;基于互联网的话题分类及敏感话题发现技术研究与实现[D];电子科技大学;2011年
3 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年
4 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年
5 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
6 丁然;电子元器件标准化信息专业搜索引擎应用研究[D];西安电子科技大学;2007年
7 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
8 张超;基于MapReduce的分布式搜索引擎研究与实现[D];太原理工大学;2012年
9 徐显炼;分布式在线旅游搜索爬虫系统设计与实现[D];北京邮电大学;2013年
10 万文宏;基于Nutch的分布式搜索引擎的研究与优化[D];武汉理工大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
3 唐勇;;网络论坛爬虫的设计[J];电脑知识与技术;2012年03期
4 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
5 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
6 徐小龙;王汝传;;基于智能Agent的多维权值信息检索模型[J];电子与信息学报;2008年02期
7 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
8 黄皓凌;张凡;;6搜-高效的专用IPv6搜索引擎[J];电子设计工程;2011年23期
9 庞景安;;Web信息采集技术研究与发展[J];情报科学;2009年12期
10 靖培栋;田亮;;聚类在搜索引擎中的应用[J];情报理论与实践;2006年04期
中国重要会议论文全文数据库 前8条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 徐晓东;郭燕慧;;AppStore应用信息自动化采集系统设计与实现[A];2013年中国信息通信研究新进展论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
9 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
10 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
3 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
4 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
5 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
8 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
9 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
10 孙文婷;基于语义的网上股评信息的提取研究[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
3 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
4 杨晓江;李丽娟;田俊华;李艺;;面向基础教育的Web资源垂直服务体系研究[J];中国远程教育;2006年07期
5 王平;贾化萍;;C/S和B/S结合模式下应用系统的研究与开发[J];电脑与信息技术;2006年01期
6 陈洪猛;;基于垂直搜索技术的搜索引擎解决方案[J];电脑应用技术;2008年01期
7 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
8 唐波;;网络爬虫的设计与实现[J];电脑知识与技术;2009年11期
9 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
10 蒋林涛;;互联网引入带来的机遇与挑战[J];电信科学;2008年01期
中国重要会议论文全文数据库 前1条
1 丁辉;张大华;罗志明;;基于Hadoop的海量数据处理平台研究[A];2011电力通信管理暨智能电网通信技术论坛论文集[C];2011年
中国博士学位论文全文数据库 前7条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
3 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
4 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
5 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
6 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
7 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 江柳;HDFS下小文件存储优化相关技术研究[D];北京邮电大学;2011年
2 李静;基于改进向量空间模型的网络信息检索研究[D];北京邮电大学;2010年
3 董长春;基于Hadoop的倒排索引技术的研究[D];辽宁大学;2011年
4 谢桂兰;基于Eucalyptus云平台的Hadoop集群研究[D];成都理工大学;2011年
5 郑博文;基于Hadoop的分布式网络爬虫技术[D];哈尔滨工业大学;2011年
6 李正文;基于SVM分类算法的主题爬虫研究[D];哈尔滨工程大学;2011年
7 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
8 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
9 李毅;半结构化文档中语义信息抽取方法的研究[D];清华大学;2004年
10 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前6条
1 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
2 冯昀;;爬虫技术在网站信息拨测系统中的应用[J];广西通信技术;2012年04期
3 张旭;张振江;刘云;;BBS舆情系统爬虫模块的研究[J];铁路计算机应用;2010年12期
4 陈忆金;曹树金;陈少驰;陈珏静;;网络舆情信息监测研究进展[J];图书情报知识;2011年06期
5 陈桂鸿;曹树金;陈忆金;;网络舆情信息提取与预处理研究[J];图书情报知识;2011年06期
6 黄敏;胡学钢;;网络舆情分析技术及系统构建[J];山东理工大学学报(自然科学版);2013年01期
中国硕士学位论文全文数据库 前10条
1 马力;基于Web2.0的政府网络舆情信息管理模型研究[D];湖北工业大学;2011年
2 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
3 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年
4 刘杰;互联网舆情信息搜索与分析技术研究[D];电子科技大学;2011年
5 卫伟;基于Web舆情的意见挖掘关键技术研究[D];电子科技大学;2011年
6 田冬阳;一种基于改进支持向量机的文本倾向性分类算法[D];上海交通大学;2011年
7 韩毅;社区居民医疗卫生“健康一卡通”系统的设计与实现[D];天津大学;2012年
8 郭丹丹;基于MVC的前端开发研究与应用[D];北京邮电大学;2012年
9 张珏;网络舆情预测模型与平台的研究[D];北京交通大学;2009年
10 郭伟;基于工作流技术的分布式农产品数字认证系统[D];河南农业大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 肖宇峰,黄玉清,李磊民;水泥厂生产系统的分布式网络与层次化软件结构[J];西南科技大学学报;2004年02期
2 李亮;张安;吴天俣;;分布式网络环境下雷达网的网络性能分析[J];火力与指挥控制;2010年01期
3 ;API加强访问策略[J];每周电脑报;1999年11期
4 ;远程保卫分布式网络[J];每周电脑报;2003年29期
5 陈东;嵌入式系统中MCS-51复杂通讯模式研究[J];武汉职业技术学院学报;2005年05期
6 温晓军;刘云;;分布式量子通信网络中的身份认证方案[J];铁道学报;2005年06期
7 蔡思文;祁耀斌;崔汉民;;大型钢厂能源调度信息系统的研究[J];武汉理工大学学报(信息与管理工程版);2007年02期
8 卢峰;刘蓉;;基于委任的分布式网络管理研究与实现[J];电子科技;2007年07期
9 朱晓姝;;语义分布式网络技术初探[J];玉林师范学院学报(自然科学版);2007年03期
10 邵鹏飞;C.Bruce-Boye;梁丰;;基于软总线LabMap的松耦合分布式控制系统研究[J];计算机测量与控制;2007年11期
中国重要会议论文全文数据库 前10条
1 叶新铭;王斌;;基于Web的分布式网络设备监视系统的设计与实现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 孙耀杰;刘木清;周小丽;韩磊;;基于网络的数字化道路照明控制技术[A];中国长三角照明科技论坛论文集[C];2006年
3 吴国凤;曾标;;Web Services在环保监控系统中的应用[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
4 王海滨;阮秋琦;;立体显示与视觉跟踪方法的集成在虚拟现实系统中的应用研究[A];1999年中国智能自动化学术会议论文集(下册)[C];1999年
5 王海滨;阮秋琦;;PC机虚拟现实系统应用研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
6 陈志强;张丽;高文焕;康克军;;应用于集装箱检查系统的互逆式客户/服务器处理技术[A];第十届全国核电子学与核探测技术学术年会论文集[C];2000年
7 张坚平;曹敏;陈仲华;沈成彬;;从世博官网IPv6接入看CP/SP的IPv6迁移[A];下一代互联网与应用研讨会论文集[C];2011年
8 李广峰;;基于LXI总线的分布式网络自动测试系统设计[A];2009安捷伦科技节论文集[C];2009年
9 吴冬平;刘冰;陈鼎智;;工业通信网络的技术应用[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C];2003年
10 陈鸣;吴才新;李兵;高屹;张涛;范霖;沙昆;;分布式网络性能管理系统:概念与实现[A];第六届全国计算机应用联合学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 沈建苗 译;组建安全的分布式网络[N];网络世界;2002年
2 ;青牛USE支持分布式网络[N];中国计算机报;2003年
3 ;前景广阔的分布式网络架构[N];中国计算机报;2002年
4 ;在单一平台上可视化管理分布式网络[N];网络世界;2002年
5 刘菁瑾;分布式网络更灵活[N];中国计算机报;2002年
6 王雅慧;全面透视交换环境网[N];中国计算机报;2002年
7 ;中联绿盟分布式漏洞管理方案[N];中国计算机报;2007年
8 ;InforBus/Q铺设安全、高效、可靠的“消息高速公路”[N];计算机世界;2004年
9 ;NetScreen -5GT提供一站式保护[N];网络世界;2003年
10 张默;腾讯投资亿元筹建互联网研究院[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 何明星;面向群的分布式网络密钥管理[D];西南交通大学;2003年
2 弭伟;基于DHT的分布式网络中负载均衡机制及其安全性的研究[D];北京邮电大学;2012年
3 黄晶;基于多Agent分布式约束优化问题求解方法研究[D];吉林大学;2008年
4 路峰;信任评估模型及其方法研究[D];南京理工大学;2009年
5 郭楠;分布式网络自管理模型及相关问题研究[D];东北大学;2005年
6 邓子健;WiiSE网络应用安全技术研究[D];西南交通大学;2009年
7 任远扬;智能化建筑及相关软件技术研究——移动分布式网络中的中间件研究[D];西北工业大学;2003年
8 王宇翔;分布式网络地理信息系统研究[D];中国科学院研究生院(遥感应用研究所);2002年
9 李晓帆;认知无线电与协同网络的资源优化策略[D];北京邮电大学;2012年
10 林辉;多用户分布式网络MIMO技术的研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 陆琼;分布式网络专用地理信息系统的设计与实现[D];长安大学;2005年
2 彭法銮;基于JXTA的P2P应用研究[D];武汉理工大学;2006年
3 文自勇;分布式网络监听系统研究与实现[D];西南交通大学;2005年
4 刘艳;分布式网络并行系统在舰载指控系统中的应用研究[D];哈尔滨工程大学;2003年
5 金玉珍;基于分布式网络的液压系统仿真软件研究[D];浙江大学;2005年
6 郭慧;分布式网络环境中访问控制模型的设计与实现[D];燕山大学;2006年
7 张娜;分布式网络安全审计系统[D];华东师范大学;2009年
8 王寻;分布式网络中压缩感知的应用研究[D];北京邮电大学;2011年
9 侯哲威;基于J2EE的分布式网络地理信息服务探索[D];中国人民解放军信息工程大学;2005年
10 鲁梦;分布式网络安全审计系统研究与实现[D];贵州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026