收藏本站
《北京邮电大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

主题爬虫的设计与实现

彭小明  
【摘要】:随着网络信息资源的急速增长,如何能够快速准确的在数量巨大的网络资源中获取需要的信息是网络研究的一个热点。通用搜索引擎提供的是一种粗略的检索服务,已越来越不能满足人们个性化、专业化的搜索需求。主题搜索引擎只搜索与特定主题相关的网络资源,能为用户提供更加快速、更加准确的检索服务,因而成为现代信息检索的一种趋势。网络爬虫是搜索引擎获取网络数据的重要工具,搜索引擎利用网络爬虫在网络上自动的获取网络资源,然后对所获取的资源建立索引,以供网络用户进行信息检索。 论文首先介绍了通用网络爬虫的模型、原理和不足,进而介绍了聚焦爬虫的原理及其架构,详细分析了主题爬虫的关键技术,即主题搜索策略和主题相关性的计算。 通过对主题爬虫原理的分析,设计了并行架构的主题爬虫系统;指出了基于内容评价搜索策略的Shark-Search算法和链接结构评价的搜索策略HITS算法的不足,设计了结合Shark—Search算法和HITS算法的搜索策略作为主题爬虫的搜索策略。已有的主题爬虫需要大量已标记的训练样本来进行离线训练,无法在爬行过程中对新的知识进行增量学习,不能很好的利用已经下载的和主题相关的网页,因而很难符合当今Web资源采集的需求。对新下载的页面在线学习可提高页面下载精度,有利于加速主题爬行过程。本文通过对增量朴素贝叶斯分类算法的研究,将增量贝叶斯分类器应用于主题爬虫主题相关度的计算中。 最后采用C++语言在Linux环境下对主题爬虫进行了实现。实验结果表明,爬虫系统性能良好,可以准确的进行主题信息的自动爬取。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前9条
1 徐光美;杨炳儒;秦奕青;张伟;;基于互信息的多关系朴素贝叶斯分类器[J];北京科技大学学报;2008年08期
2 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
3 徐光美;杨炳儒;钱榕;;朴素贝叶斯分类器一阶扩展的注记[J];计算机工程;2008年13期
4 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期
5 宫秀军,刘少辉,史忠植;一种增量贝叶斯分类模型[J];计算机学报;2002年06期
6 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
7 黄英铭;;Web结构挖掘及HITS算法分析[J];计算机与现代化;2007年07期
8 马雪;;CiteSeer~X—免费获取计算机类外文科技文献的搜索利器[J];内蒙古科技与经济;2009年21期
9 李晓毅;徐兆棣;;增量式贝叶斯分类的原理和算法[J];沈阳工业大学学报;2006年04期
中国博士学位论文全文数据库 前2条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前4条
1 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
2 霍树民;基于Hadoop的海量影像数据管理关键技术研究[D];国防科学技术大学;2010年
3 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
4 寇春花;主题爬虫的研究与实现[D];东北大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 赖英旭;杨震;;改进贝叶斯算法在未知恶意软件识别中的研究[J];北京工业大学学报;2011年05期
5 谢能付;王文生;段延娥;;基于概念空间的领域信息爬虫设计研究[J];江西师范大学学报(自然科学版);2008年02期
6 王利;张喜平;郭林;;增量式知识获取算法综述[J];重庆邮电大学学报(自然科学版);2007年S1期
7 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
8 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
9 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
10 蒋明亮;李志清;;网站内容检索系统的设计[J];电脑知识与技术;2009年05期
中国重要会议论文全文数据库 前7条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
5 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 彭小明;辛阳;;基于增量贝叶斯算法的主题爬虫的设计与实现[A];第九届中国通信学会学术年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
7 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
8 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
9 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
10 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
中国硕士学位论文全文数据库 前10条
1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
4 伍红亮;基于最小风险的贝叶斯邮件过滤算法研究[D];华南理工大学;2010年
5 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
6 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
7 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
8 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
9 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
10 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 曲大成,李小平,何丹华;基于 CDF 的 Web 广播技术及其在校园网中的应用[J];北京理工大学学报;1998年06期
3 李德仁,龚健雅,李京伟,王密;中国空间数据基础设施建设[J];测绘通报;2002年11期
4 申胜利;李华;刘聚海;;基于ArcSDE的栅格数据存储与处理[J];测绘通报;2007年09期
5 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
6 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
7 金益;;基于“网络蜘蛛原理”的搜索引擎技术剖析[J];电脑学习;2007年05期
8 刘三民;王杰文;;空间数据存储管理研究综述[J];电脑与信息技术;2006年03期
9 张明波,申排伟,陆锋,程昌秀;空间数据引擎关键技术与应用分析[J];地球信息科学;2004年04期
10 李光师;徐全生;史新慧;;基于Oracle 10g Spatial的空间栅格数据的存储与管理[J];地理空间信息;2007年02期
中国重要会议论文全文数据库 前1条
1 ;中文信息处理重大成果汇报展方正集团展示内容介绍[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前4条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
3 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年
4 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
4 丁卫嘉;基于ORACLE GeoRaster的遥感影像库技术研究[D];中国科学院研究生院(遥感应用研究所);2006年
5 郭鸿志;搜索引擎中并行文件系统的研究[D];哈尔滨工业大学;2006年
6 赵钦;并行爬行器的架构与优化策略[D];北京工业大学;2006年
7 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
8 郝思宝;数字正射影像建库关键技术研究[D];南京师范大学;2007年
9 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
10 万至臻;基于MapReduce模型的并行计算平台的设计与实现[D];浙江大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 夏敏捷;VB制作自己的增强型Web浏览器[J];计算机时代;2003年01期
2 徐德智,吴健;服务于检索的智能Agent研究[J];计算机工程与应用;2001年19期
3 郭辉,蔡庆生;Web主题信息监控系统设计与实现[J];计算机应用;2003年08期
4 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
5 耿焕同,蔡庆生,赵鹏,于琨;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
6 孙琨,曹勇;利用CGI技术实现WEB服务器与DBF数据库文件的连接[J];计算机系统应用;1998年09期
7 李绍华;Web查询的关系数据库模型[J];计算机应用;1999年08期
8 李绍华;Web超树模型与数据的重构[J];计算机应用研究;1999年08期
9 赵仁铠,候蕾;World Wide Web概述[J];现代计算机;1999年06期
10 林庆福,余金山,吴金龙;基于Java的HTTP服务器的实现[J];福建电脑;2003年01期
中国重要会议论文全文数据库 前10条
1 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 宋巍;张宇;谢毓彬;高汉东;刘挺;李生;;利用URL类别改进查询主题分类[A];第六届全国信息检索学术会议论文集[C];2010年
5 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
6 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 林磊;刘燕兵;谭建龙;郭莉;;一种基于MPHF和Bloom Filter的URL查找算法[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
10 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
2 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
3 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
4 山东 杨鑫芳;网络钓鱼与URL欺骗[N];电子报;2009年
5 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
6 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
7 本报记者 那罡;新应用为URL过滤系统带来新挑战[N];中国计算机报;2009年
8 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
9 记者 董福;中国万网正式提供中文域名解析和URL转发技术服务[N];北京科技报;2001年
10 朱启明;纪念邮票领风骚[N];中国邮政报;2007年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
4 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
8 张健毅;大规模反钓鱼识别引擎关键技术研究[D];北京邮电大学;2012年
9 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
10 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年
2 张宁;面向农业信息的主题爬虫的研究与设计[D];北京邮电大学;2010年
3 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
4 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
5 蒋超;面向人物简介的主题爬虫设计与实现[D];吉林大学;2012年
6 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年
7 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
8 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
9 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
10 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026