收藏本站
《武汉理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

主题网络爬虫的研究和实现

林捷  
【摘要】:随着网络信息时代的不断发展,广泛分布于因特网上的各类信息深刻地影响着人类生活的各个方面。如今,人们能够通过浏览网页的方式来查询其所需的各类目标信息。与此同时,由于因特网上的信息成千上万,信息量处于高速膨胀的状态,使得如何通过网页便捷地查询到目标信息这一问题更为凸现。 在信息多元化发展的趋势之下,通用搜索引擎在很大程度上为人们在因特网上查找信息提供方便,但也暴露出种种不足。例如:查准率偏低、信息内容相对陈旧、信息分布范围不均衡等。因此,主题搜索引擎技术成为新的研究方向,它专门为特定领域、特定人群或特定需求提供具有一定价值的信息资源和检索服务。主题爬虫作为主题搜索引擎的信息抓取部分,负责对与用户感兴趣的某一主题相关的网页进行抓取。 本文主要通过六个章节来分析主题爬虫的设计和实现。第一章主要阐述了搜索引擎的发展过程,网络爬虫在搜索引擎中的作用,简述了国内外的研究现状以及课题的研究意义。第二章是本文的理论基础:首先阐述了搜索引擎的基本原理,随后基于对比通用爬虫和主题爬虫找出其差异之处及其各自的特点之上,重点讨论了两种爬虫的体系结构和基本工作原理。第三章主要讨论了主题爬虫领域关键技术的研究和改进,包括文本特征项的提取方法、搜索策略以及网页消重技术的研究,并提出基于主题相关度的PageRank算法的改进。第四章主要探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词以及URL管理等模块。第五章描述了主题爬虫系统的界面与操作细节,以及利用该系统进行的实验过程,通过对实验数据的分析,证明了前述章节中各个理论的合理性与有效性。第六章对前面章节内容进行小结与归纳,并提出本文的创新点与局限性。 实验结果证明:该主题爬虫在稳定运行的同时有着更好的收获率,极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新,此外用户查找时得到的冗余和无用信息也较少,具有更高的查准率。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前2条
1 张睿涵;基于RSS的聚焦网络爬虫在高校网站群中的研究[D];南昌大学;2012年
2 魏胜辉;机械领域文本采集和分类的研究与设计[D];西安建筑科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
3 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
4 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
5 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
6 刘世涛;;简析搜索引擎中网络爬虫的搜索策略[J];阜阳师范学院学报(自然科学版);2006年03期
7 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期
8 赵仲孟;张蓓;沈均毅;;对搜索引擎未来发展的探讨[J];计算机科学;2001年03期
9 朱茂盛,王斌,程学旗;元搜索引擎及其实现[J];计算机工程;2002年11期
10 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
中国重要会议论文全文数据库 前1条
1 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国硕士学位论文全文数据库 前4条
1 白广奇;网页内容过滤的关键技术研究及实现[D];山东大学;2005年
2 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
3 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
4 毛许光;网页查重算法研究[D];武汉理工大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
3 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
4 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
5 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
6 赵京桥;;中国雅虎经营模式转型原因分析[J];财贸经济;2008年10期
7 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
8 王春梅;;基于Bloom Filter的网络爬虫URL消重算法研究[J];产业与科技论坛;2011年18期
9 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期
10 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
中国重要会议论文全文数据库 前8条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 吴东辰;;比较国内外几种主要的搜索引擎[A];福建省图书馆学会2005年学术年会论文集[C];2005年
3 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
4 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
5 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国博士学位论文全文数据库 前10条
1 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
5 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
8 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
9 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
10 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
5 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
6 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
7 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
8 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
9 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
10 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
2 谢剑猛;高校网站的规划与设计[J];华东交通大学学报;2004年05期
3 胡海燕;;RSS技术在高校网站中的设计与实现[J];吉林工商学院学报;2009年03期
4 骆斌,费翔林;多线程技术的研究与应用[J];计算机研究与发展;2000年04期
5 任剑锋;梁雪;李淑红;;基于非线性流形学习和支持向量机的文本分类算法[J];计算机科学;2012年01期
6 王津涛,兰皓;面向主题元搜索引擎的设计与实现[J];计算机工程;2005年07期
7 张素智;刘放美;;基于矩阵约束法的中文分词研究[J];计算机工程;2007年15期
8 秦玉平;王秀坤;艾青;刘卫江;;多主题文本分类的实现算法[J];计算机工程;2008年02期
9 王钟斐;王彪;;基于锚文本相似度的PageRank改进算法[J];计算机工程;2010年24期
10 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
中国硕士学位论文全文数据库 前10条
1 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
2 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
3 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
4 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年
5 于魁飞;基于RSS的信息发布与订阅技术研究[D];北京邮电大学;2007年
6 郑健珍;定题爬虫搜索策略研究[D];厦门大学;2007年
7 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年
8 彭晓琳;基于闭包的分类判别方法研究[D];武汉理工大学;2008年
9 刘喜亮;面向主题的网络爬虫设计与实现[D];湖南大学;2009年
10 韩冰;基于BP网络的高校主题爬虫的设计与实现[D];东北师范大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
2 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
3 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
4 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
5 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
6 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
7 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
8 刘咏梅;;网络搜索引擎原理及检索技巧[J];合肥教育学院学报;2003年02期
9 宋建康,张礼平;Web结构挖掘算法探讨[J];华东理工大学学报;2003年05期
10 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前2条
1 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
2 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
2 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
3 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
4 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
5 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
6 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
7 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
8 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
9 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
10 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
中国重要会议论文全文数据库 前10条
1 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年
2 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
3 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 侯丹青;李舟军;邹蕴珂;;一种跨站脚本漏洞检测系统的设计与实现[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
6 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
7 张军;于浩;内野宽治;;UGC中产品评论信息的挖掘[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 王凯;刘代志;李东旭;齐玮;;地球物理环境情报搜集系统研究[A];国家安全地球物理丛书(四)——地球物理环境探测和目标信息获取与处理[C];2008年
中国重要报纸全文数据库 前9条
1 王猛祥 徐明华;六度分隔:下一代网络交际[N];中国计算机报;2004年
2 Victor;电子邮件跟踪服务面世[N];人民邮电;2004年
3 伍裕标;网络监控STOP![N];中国电脑教育报;2003年
4 商建刚;当你电子邮件地址被拍卖(上)[N];中国计算机报;2001年
5 记者 郭丽君;封堵涉黄网站3500个[N];光明日报;2010年
6 记者 邵素宏;中移动新型拨测系统“扫黄”显威力[N];人民邮电;2010年
7 马季;网络文学遭遇“版权困境”[N];人民日报海外版;2010年
8 记者 曹莉;泛华北(环渤海)工程信息共享平台功能升级[N];中国建设报;2011年
9 上海 陈曦;谷歌之后,谁来制衡百度?[N];电脑报;2010年
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵茉莉;网络爬虫系统的研究与实现[D];电子科技大学;2013年
2 金梅;网络爬虫性能提升与功能拓展的研究与实现[D];吉林大学;2012年
3 芮虎;比价购物平台中网络爬虫的设计与实现[D];华东理工大学;2013年
4 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
5 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
6 张大伟;基于动态概念图的主题网络爬虫的设计与分析[D];辽宁科技大学;2013年
7 段兵营;搜索引擎中网络爬虫的研究与实现[D];西安电子科技大学;2014年
8 王毅桐;分布式网络爬虫技术研究与实现[D];电子科技大学;2012年
9 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
10 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026