收藏本站
《哈尔滨工业大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

Inar网络爬虫的设计与实现

林乐彬  
【摘要】: 随着internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何在上百万的网站中快速有效地获取所需信息常常困扰着人们,搜索引擎(Search Engine)正是为解决用户的查询问题而出现的。通过搜索引擎,用户可以穿梭于放置在不同地点、隶属于不同网络的WWW网页,来获取所需要的各种信息。而在整个搜索引擎系统中,网络爬虫起着重要的作用,它是Internet搜索引擎的数据来源,它决定着整个系统的内容是否丰富、信息是否能够得到及时更新。 本文首先从搜索引擎种类和组成出发,对搜索引擎的内部运行机制进行了初步的了解,其次对现在一般的网络爬虫的运行过程给予整体的介绍,以及网络爬虫的搜索策略和所面临的主要技术问题进行了简要的分析,然后通过了三个具体的例子对网络爬虫的内部结构进一步的分析,最后对于网络爬虫Inar(Information Navigation And Retrieval)体系结构设计与实现作了详细的分析。本文的研究内容主要包括以下几个方面: (1)通过对一般网络爬虫的分析研究,提出了Inar网络爬虫的体系结构,并结合主要的数据结构对爬虫的内部核心结构进行了深入的阐述。 (2)在详细分析了Inar核心结构:URL调度, DNS解析, Connecting,异步I/O, HTML分析,URL过滤几个主要模块以后,分别给出了在linux平台下C/C++技术实现Inar的详细过程。 (3)对于Inar的更新策略予以了设计与分析,提出了更新爬虫与发现爬虫的爬虫系统结构,使爬虫的功能更加独立,有效,提高了网络爬虫更新的效率。 (4)对实验数据进行分析,通过试验数据分别与Google, The Internet Archieve爬虫进行比较,总结优缺点。 (5)对运行结果和下一步本课题的实现内容做了分析和简单的展望。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP311.10

【引证文献】
中国硕士学位论文全文数据库 前6条
1 董红臣;基于增量更新的交互式网页内容提取技术研究[D];哈尔滨工程大学;2011年
2 吴昊;主题爬虫URL分析模型与调度技术研究[D];哈尔滨工程大学;2011年
3 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
4 尹江;基于文档分类及超链接优选策略主题蜘蛛的研究与实现[D];西南交通大学;2008年
5 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年
6 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
3 李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕;中文搜索引擎概念检索初探[J];计算机工程与应用;2000年06期
4 潘春华,冯太明,武港山;基于移动爬虫的专用Web信息收集系统的设计[J];计算机工程与应用;2003年36期
5 邓伟,张志伟,谭庆平,宁洪;一种新型的智能搜索引擎[J];计算机工程;2000年03期
6 罗三定,黄勇;一个应用模糊方法的智能搜索引擎的构建[J];计算机工程;2000年12期
7 丁秀锋;浅析搜索引擎的原理和发展趋势[J];内江科技;2005年02期
8 吴友政,赵军,段湘煜,徐波;问答式检索技术及评测研究综述[J];中文信息学报;2005年03期
9 张海涛,刘甲学,宋川;超文本系统信息结构组成元素—链的分析[J];情报科学;2002年04期
10 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
【共引文献】
中国期刊全文数据库 前10条
1 段建勇;李俊;张梅;马礼;;限定领域的自动问答系统研究[J];北方工业大学学报;2010年01期
2 赵静萍,张友鹏;中文搜索引擎的比较研究[J];图书与情报;2004年06期
3 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
4 唐培丽;解飞;陈志雨;;基于概念检索的中文搜索引擎研究[J];长春大学学报;2006年04期
5 朴雨美;Internet中文信息搜索引擎评析[J];电脑学习;2002年02期
6 刘宁锋;史晓东;;中文问答系统中答案抽取的研究[J];电脑知识与技术;2011年12期
7 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期
8 符静;数据挖掘:情报学的发展[J];大学图书情报学刊;2005年04期
9 金更达;网络资源界面整合和Agent界面实现探讨[J];大学图书馆学报;2002年01期
10 熊应,朱斌,朱海云;电子邮件智能分类系统的设计[J];电子学报;2001年12期
中国重要会议论文全文数据库 前9条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 熊文新;宋柔;;信息检索查询语句的表述分析[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
3 董红斌;苏中滨;;基于Mobile Agent的信息搜索技术[A];全国计算机网络应用年会论文集(2001)[C];2001年
4 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
3 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
4 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
5 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
9 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
10 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
3 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
4 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
5 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
6 许洋波;英文实体答案提取及主页查找研究[D];昆明理工大学;2010年
7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
8 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
9 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
10 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 王玲;穆志纯;郭辉;;一种基于聚类的支持向量机增量学习算法[J];北京科技大学学报;2007年08期
3 祝华新;胡江春;孙文涛;;2007中国互联网舆情分析报告[J];今传媒;2008年02期
4 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
5 高波,眭莉;基于粗糙集的网页训练样本集的分类属性的选择[J];常州工学院学报;2004年02期
6 林炜,蔺永华;HTTP协议及其发展[J];电脑学习;1999年01期
7 李雅丽;李然;;DNS在网络中的应用[J];电脑知识与技术(学术交流);2007年09期
8 孟涛,闫宏飞,李晓明;一种评价搜索引擎信息覆盖率的模型及其验证[J];电子学报;2003年08期
9 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
10 宋建康,张礼平;Web结构挖掘算法探讨[J];华东理工大学学报;2003年05期
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 胡一俊;web超链分析应用研究[D];武汉大学;2005年
3 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
4 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
5 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
6 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
7 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
8 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
9 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
10 邱正国;主题蜘蛛的研究及实现[D];南京师范大学;2007年
【二级引证文献】
中国硕士学位论文全文数据库 前10条
1 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
2 江军;用户评论情感分类系统设计与实现[D];南京大学;2011年
3 何丹丹;社交网络视频分享测量平台的设计与实现[D];华中科技大学;2011年
4 严鸿毅;基于聚焦爬虫的网上药品信息监测系统[D];浙江工业大学;2011年
5 程芳;支持主题学习的网络资源搜索系统设计与实现[D];华东师范大学;2010年
6 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
7 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
8 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
9 刘邵斌;专家信息垂直搜索引擎关键技术研究与实现[D];中南大学;2010年
10 杨洁;基于渗透测试的分布式跨站漏洞挖掘系统的设计与实现[D];西安电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 赫枫龄,陶文学,李凯,周力,左万利;新一代网络搜索引擎系统CHINA_VIVI的实现[J];吉林大学学报(理学版);2003年02期
2 周会平;王挺;史晓东;陈火旺;齐璇;;一个基于中间语言的汉英机器翻译系统[J];计算机科学;1998年05期
3 刁倩,张惠惠,王永成;Internet上的英文搜索引擎[J];计算机工程;1999年07期
4 潘春华 ,常敏 ,武港山;面向Web的信息收集工具的设计与开发[J];计算机应用研究;2002年06期
5 刘永泰;超文本技术[J];科技情报开发与经济;1999年02期
6 张潮生;语义表达的一些性质[J];中文信息学报;1991年01期
7 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期
8 崔桓,蔡东风,苗雪雷;基于网络的中文问答系统及信息抽取算法研究[J];中文信息学报;2004年03期
9 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
10 张琳;WWW上基于概念的智能搜索[J];上海海运学院学报(工学院论文专辑);2000年04期
中国重要会议论文全文数据库 前1条
1 吴友政;赵军;段湘煜;徐波;;构建汉语问答系统评测平台[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
中国重要会议论文全文数据库 前10条
1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
2 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年
2 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
3 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
4 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
5 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
6 杨新英;基于网络爬虫的Web应用程序漏洞扫描器的研究与实现[D];电子科技大学;2010年
7 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
8 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
9 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
10 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026