收藏本站
《武汉理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

搜索引擎中网络爬虫的研究

龚勇  
【摘要】: 搜索引擎作为信息检索技术在互联网时代的应用,使人们能够更有效的从互联网获取各种资源。但随着互联网的发展,传统的搜索引擎,即通用搜索引擎渐渐不能满足人们对信息检索服务日益增长的需求。近年来,面向主题的搜索引擎应运而生。本文围绕主题搜索引擎,对主题搜索引擎中占有重要地位的主题爬虫相关技术进行了研究和讨论。 网络爬虫用来从互联网上抓取页面。通用爬虫会从一些种子链接开始,目标是获取互联网上所有的页面。而主题爬虫的目标是获取与特定主题内容相关的页面,因此除了具有通用爬虫的基本功能外,还需要对页面的内容和链接进行分析从而能够对爬虫爬行的路径进行指导和预测。主题网络爬虫选择什么样的爬行策略对互联网进行访问,直接影响着其爬行的效率。本文着重研究并改进了基于Context Graph的主题爬行算法,研究工作主要有以下几个方面: (1)研究了搜索引擎中通用网络爬虫和主题网络爬虫的技术原理、工作流程,着重分析了主题网络爬虫的主题爬行策略,对主题网络爬虫常用的基于链接分析的爬行策略和基于内容分析的爬行策略进行分析比较。 (2)针对传统的主题爬行算法不能很好解决“隧道现象”的问题,本文详细介绍了一种基于Context Graph的主题爬行算法,它通过预测新抓取页面在Context Graph中所处的层次,能够指导网络爬虫沿着最有可能找到目标页面的路径爬行,进而较好地解决“隧道现象”的问题。 (3)使用一种基于词频差异的特征选择方法和改进的TF-IDF公式对基于Context Graph的主题爬行算法进行了改进,加入词的类别权重作为对TF-IDF公式的调整,以提高特征选择和评价的质量。 (4)实现了一个主题爬虫原型,通过实验对各算法进行了分析和比较,验证了本文改进的算法能够得到更加准确的文档集特征及权重,进而提高主题爬虫的性能。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
2 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
3 魏毅峰;;产品评论检索系统设计[J];现代经济信息;2011年14期
4 ;李彦宏论搜索引擎三个定律[J];新电子;2001年02期
5 张春菊;张雪英;朱少楠;徐希涛;;基于网络爬虫的地名数据库维护方法[J];地球信息科学学报;2011年04期
6 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期
7 相春雷;;2009年中国搜索引擎市场趋势分析[J];软件世界;2010年02期
8 郭晓霞;王磊;席岩;王晓艳;汪瑛;;基于网络的视频内容检索与盗版追踪溯源研究[J];广播与电视技术;2011年07期
9 ;揭秘搜索引擎收录网站的秘密[J];计算机与网络;2010年Z1期
10 金凡;顾进广;;一种改进的T-Spider分布式爬虫[J];微电子学与计算机;2011年08期
中国重要会议论文全文数据库 前10条
1 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
9 王凯;刘代志;李东旭;齐玮;;地球物理环境情报搜集系统研究[A];国家安全地球物理丛书(四)——地球物理环境探测和目标信息获取与处理[C];2008年
10 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 主持人 陈建栋;搜索引擎能帮企业做什么[N];光明日报;2005年
2 本报记者 陈建栋;搜索引擎掀起第三次网络浪潮[N];光明日报;2005年
3 曾正乐;搜索引擎为啥那么热[N];经济日报;2005年
4 本报记者 秦海波;今夏搜索引擎最热[N];经济日报;2005年
5 FN记者 柳立;我国搜索引擎市场竞争格局初步确定[N];金融时报;2005年
6 闫辉;搜索引擎猜想[N];计算机世界;2005年
7 本报记者 李剑;搜索引擎进入“泛门户”时代[N];通信信息报;2005年
8 华夏;搜索引擎:有钱便是爷 涉嫌广告欺诈[N];江苏科技报;2008年
9 记者 毛涛涛;优酷主动屏蔽搜索引擎[N];北京商报;2008年
10 笑愉;2008年中国搜索引擎市场将突破50亿元[N];中国税务报;2008年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
2 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年
3 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
4 郭海燕;搜索引擎中网络爬虫技术研究[D];西安电子科技大学;2009年
5 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年
6 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
7 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
8 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
9 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年
10 范慧;以博客内容为对象的个性化搜索研究[D];华中科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026