收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

主题网络爬虫的研究和实现

林捷  
【摘要】:随着网络信息时代的不断发展,广泛分布于因特网上的各类信息深刻地影响着人类生活的各个方面。如今,人们能够通过浏览网页的方式来查询其所需的各类目标信息。与此同时,由于因特网上的信息成千上万,信息量处于高速膨胀的状态,使得如何通过网页便捷地查询到目标信息这一问题更为凸现。 在信息多元化发展的趋势之下,通用搜索引擎在很大程度上为人们在因特网上查找信息提供方便,但也暴露出种种不足。例如:查准率偏低、信息内容相对陈旧、信息分布范围不均衡等。因此,主题搜索引擎技术成为新的研究方向,它专门为特定领域、特定人群或特定需求提供具有一定价值的信息资源和检索服务。主题爬虫作为主题搜索引擎的信息抓取部分,负责对与用户感兴趣的某一主题相关的网页进行抓取。 本文主要通过六个章节来分析主题爬虫的设计和实现。第一章主要阐述了搜索引擎的发展过程,网络爬虫在搜索引擎中的作用,简述了国内外的研究现状以及课题的研究意义。第二章是本文的理论基础:首先阐述了搜索引擎的基本原理,随后基于对比通用爬虫和主题爬虫找出其差异之处及其各自的特点之上,重点讨论了两种爬虫的体系结构和基本工作原理。第三章主要讨论了主题爬虫领域关键技术的研究和改进,包括文本特征项的提取方法、搜索策略以及网页消重技术的研究,并提出基于主题相关度的PageRank算法的改进。第四章主要探讨主题爬虫的系统设计与实现,主要包括网页抓取模块、网页分析模块、中文分词以及URL管理等模块。第五章描述了主题爬虫系统的界面与操作细节,以及利用该系统进行的实验过程,通过对实验数据的分析,证明了前述章节中各个理论的合理性与有效性。第六章对前面章节内容进行小结与归纳,并提出本文的创新点与局限性。 实验结果证明:该主题爬虫在稳定运行的同时有着更好的收获率,极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新,此外用户查找时得到的冗余和无用信息也较少,具有更高的查准率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑京华;;提高搜索引擎检索准确率的策略[J];科技情报开发与经济;2007年21期
2 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
3 崔泽永,常晓燕;搜索引擎的Web Robot技术与优化[J];微机发展;2004年04期
4 金蓓;叶晓俊;;搜索引擎的检索技术及其对比研究[J];北京城市学院学报;2006年04期
5 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
6 丁婕;;管窥“网络蜘蛛”之网上爬行[J];技术与市场;2008年08期
7 吴清江;吴政;刘琳琅;;面向侨务信息主题的搜索引擎系统[J];华侨大学学报(自然科学版);2006年04期
8 杜津萍;王磊;;搜索引擎在科技查新中的应用[J];图书馆工作与研究;2007年03期
9 刘苍剑;;Internet中文搜索引擎检索系统设计[J];适用技术市场;2001年04期
10 柳胜国;论互联网信息搜索策略[J];情报资料工作;2002年S1期
11 李爱军;王海滨;郑晓波;;基于推理控制策略的智能型电力搜索引擎的研究[J];西华大学学报(自然科学版);2008年06期
12 王海鹰;魏颖;;基于蚁群算法的多目标网页综合评价策略[J];计算机工程与应用;2011年04期
13 李粤;安捷;李星;;排序融合算法在校园网搜索引擎中的应用[J];大连理工大学学报;2005年S1期
14 奚科芳;;谈计算机网络信息检索[J];无锡南洋学院学报;2005年03期
15 刘汉兴;刘财兴;;主题爬虫的搜索策略研究[J];计算机工程与设计;2008年12期
16 东兴;贾宇波;王义;范红丹;;一种改进的向量空间信息检索模型研究[J];工业控制计算机;2011年05期
17 辛乘胜;周家萍;;对情报检索效率的若干理论的探讨——兼与王永成等同志商榷[J];情报科学;1984年06期
18 黄亮;浅谈计算机网络信息检索[J];科技情报开发与经济;2004年04期
19 秦拴狮;因特网信息的查全与查准[J];情报学报;2005年05期
20 瞿锋;陈纪元;;汉语自动分词算法综述[J];福建电脑;2006年04期
中国重要会议论文全文数据库 前10条
1 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
3 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
6 房江太;黄映辉;李冠宇;;基于WSDL-S的Web服务语义标注方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
7 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
8 张博锋;刘凤;周传飞;邹国兵;;基于P2P的制造资源搜索引擎的研究与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
10 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
5 郑文良;基于简单本体的农业P2P搜索引擎关键技术研究[D];沈阳农业大学;2013年
6 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
7 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
8 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
2 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
3 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
4 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
5 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
6 付克志;基于Web的文本信息检索算法的研究[D];大连理工大学;2006年
7 徐东;基于本体的领域智能搜索技术研究[D];哈尔滨工程大学;2007年
8 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年
9 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年
10 孙轩;主题搜索引擎的关键技术研究与实现[D];武汉理工大学;2010年
中国重要报纸全文数据库 前10条
1 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
2 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
3 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
4 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
5 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
6 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
7 李一鑫;搜索排名的红与黑[N];财经时报;2007年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978