收藏本站
《山东科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

主题爬虫穿越隧道算法研究与设计

常旭  
【摘要】:伴随着互联网及应用和服务的普及,网上信息量以带宽的指数级增长,互联网用户信息检索的难度和复杂度也不断提高。因此,搜索引擎越来越引起人们的重视和关注。Google曾宣称它们索引的网页数目已达到10000亿,中国的网页规模也超过了100亿,并且仍在以指数的增长方式急剧猛增,面对如此浩瀚的信息资源,如何有效的提取并利用这些海量信息成为搜索引擎面临的一个巨大挑战。 为了提高搜索效率和满足人们日益增长的个性化服务的需求,适应特定领域、特定人群的特定需求的主题搜索引擎(也称专业搜索引擎和垂直搜索引擎)应运而生,并且越来越受到人们的青睐。主题搜索引擎只专注于与主题相关的高质量网页,保证了对主题相关信息的完全收录和及时更新,具备“专,精,深”的特点,成为新一代搜索引擎的发展趋势。搜索引擎爬取网页是以网络爬虫技术来实现的,而主题爬虫以何种策略高效爬取web信息,成为近年来爬虫研究地焦点之一 本文着眼于提高主题爬虫的爬取效率,通过对VSM网页分类算法分析,从特征提取、特征值计算和类核心词汇生成三方面改进了VSM网页分类算法,其中对于特征值计算,本文从词语的出现语义角度来考虑,给出了混合因素加权的特征项的权值计算方法,提高了文本相似度计算的精度。并结合"Better Parent Have Better Children"思想,提出了运用相似度预测值动态调整主题爬虫的爬行步数,通过灵活设置相似度预测的K值,引导爬虫穿越隧道,即动态调整主题爬虫穿越隧道算法。该算法消除了K值设置过大引起的低爬准率或过小导致低爬全率的缺陷。基于本文提出的主题相关度的计算算法来动态决定主题无关页面是否丢弃,在很大程度上扩大了主题爬虫的有效搜索范围。使众多独立的网络社区互相连接起来,形成一个相对完整的主题群,引导主题爬虫高效的穿越网络隧道,提高主题爬虫的爬全率和爬准率。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
2 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
3 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
4 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
5 陈淼;;基于数据包分析的网页还原技术研究[J];中国科技信息;2011年16期
6 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
7 杨智勇;曹航;;网页资源长期保存的标准和技术研究[J];档案;2011年03期
8 王静;刘观宁;张钰辉;;网页去重的改进算法[J];微型机与应用;2011年12期
9 虞欣平;董海量;;一种实用的网络舆情监控系统[J];福建电脑;2011年06期
10 施佺;王恒山;肖仰华;丁卫平;;面向主题的垂直搜索引擎系统的研究与实现[J];微电子学与计算机;2011年07期
中国重要会议论文全文数据库 前10条
1 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
8 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
9 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 路人甲;请个专家来贴图[N];电脑报;2005年
9 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
6 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
7 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
2 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
8 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
9 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
10 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026