收藏本站
《武汉理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

主题爬虫的实现及其关键技术研究

张航  
【摘要】: 随着互联网的快速发展,信息的发布与传播变得越来越快捷,网络上的信息量也积累到了非常庞大的规模,这使得检索信息变得日益困难,所幸搜索引擎能够为用户提供快速的信息检索,它被人越来越多的使用并成为日常生活中的一种依赖。网络爬虫作为搜索引擎的抓取模块,负责搜集互联网上的网页,爬虫系统的爬行性能和搜集到的网页质量很大程度上影响了搜索引擎的服务质量,所以爬虫是搜索引擎的重要组成部分,值得研究和改进。近年来,受制于网络的规模,通用爬虫的负担越来越繁重,而专注于特定领域的主题爬虫搜集的信息更有针对性,并且运行效率较高,于是得到了广泛的重视和深入的研究。主题爬虫为爬虫领域开辟了一条新的路径,具有很高的研究价值和实用价值,本文围绕设计和实现一个主题爬虫所涉及的各项技术展开讨论,所做的主要工作和研究成果包括: (1)提出和实现了一种改进的搜索策略,主要是通过动态调整阈值,使爬虫的搜索过程更有灵活性,可以有效解决主题爬虫领域的隧道现象,平衡主题爬虫的搜集覆盖率和准确率,使两者都达到较高的水平; (2)提出和实现了一种改进的相关度计算模型,主要是通过合理压缩空间向量的维度,在不丢失准确度的情况下,减少了计算的时间复杂度,可以有效提高计算速度; (3)研究了当数据规模很大时,爬虫系统如何实现URL的消重和网页的存储,前者主要是通过将索引建立成B-树的结构,从而有效的压缩了维护URL队列所需的空间,后者主要是放弃数据库的存储方式,将网页按照一定的存储格式,以文件方式予以保存,有利于数据的安全和维护; (4)研究了涉及主题爬虫领域的各项技术问题,主要有网页的获取,网页内容的分析,中文分词和搜索策略等,综合上述各方面的理论,设计和实现了个主题爬虫系统,利用该系统对搜索策略和相关度计算的改进方法进行了实验测试,数据显示上述改进方法效果良好。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前5条
1 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
2 刘经纬;多源媒体数据聚合与传输加速系统[D];华中科技大学;2011年
3 苏菲菲;精准营销中观点爬取与需求匹配技术的研究与实现[D];东北财经大学;2011年
4 张睿涵;基于RSS的聚焦网络爬虫在高校网站群中的研究[D];南昌大学;2012年
5 申林;互联网用户行为信息的数据挖掘技术研究[D];黑龙江大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
2 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
3 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
4 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期
5 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
6 向永红,李甦,袁勇,林毓材,赵景秀;串的最大匹配算法[J];计算机工程与科学;2003年04期
7 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期
8 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
9 王凤红;;简单分布式网络爬虫模型的设计与分析[J];中国现代教育装备;2008年04期
10 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期
中国硕士学位论文全文数据库 前4条
1 白广奇;网页内容过滤的关键技术研究及实现[D];山东大学;2005年
2 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
3 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
4 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
5 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
6 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
7 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
8 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
9 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
10 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
中国重要会议论文全文数据库 前10条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
4 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
5 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
6 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
9 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
10 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
6 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
7 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
8 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
9 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
10 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
7 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
8 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
9 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
10 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 许正良,欧志广,徐颖;顾客服务模式选择及顾客服务组织匹配问题的研究[J];商业研究;2005年15期
4 李旭倩;甄力;;MFC网络蜘蛛流程分析[J];电脑编程技巧与维护;2008年09期
5 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
6 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
7 李舒晨;刘云;李勇;;网络舆情分析中网页信息预处理方案的实现[J];电脑与电信;2008年10期
8 谢剑猛;高校网站的规划与设计[J];华东交通大学学报;2004年05期
9 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
10 胡海燕;;RSS技术在高校网站中的设计与实现[J];吉林工商学院学报;2009年03期
中国博士学位论文全文数据库 前4条
1 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
4 程斌;对等点播系统数据分发关键技术研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
2 辛强;基于共现距离与查询扩展的蒙古文信息检索系统[D];内蒙古大学;2011年
3 姜兰池;基于内容的图像检索关键技术研究[D];杭州电子科技大学;2009年
4 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年
5 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
6 曾义聪;基于概念树的主题爬取技术研究[D];湖南大学;2005年
7 郭琛;数字图书馆的中文网页文本分类器研究[D];武汉理工大学;2005年
8 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
9 彭时名;中文文本分类中特征提取算法研究[D];重庆大学;2006年
10 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 曹桂锋;搜索引擎中网页分类和网页净化的研究与实现[D];武汉理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
2 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
3 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
4 宋建康,张礼平;Web结构挖掘算法探讨[J];华东理工大学学报;2003年05期
5 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期
6 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
7 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
8 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
9 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
10 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
中国博士学位论文全文数据库 前2条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 董道国;高维数据索引结构研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前5条
1 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
2 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
3 王思力;面向大规模信息检索的中文分词技术研究[D];中国科学院研究生院(计算技术研究所);2006年
4 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
5 冯月;基于专业搜索引擎网络蜘蛛搜索策略研究[D];电子科技大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
2 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
3 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
4 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
5 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
6 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
7 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
8 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
9 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
10 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026