收藏本站
《广东工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直搜索引擎中的主题爬虫技术研究

刘建明  
【摘要】:随着Internet的迅猛发展,网络上的信息呈现爆发式的增长。通用搜索引擎已经不能满足人们对于个性化信息的需求,此时,面向特定领域的垂直搜索引擎应运而生。垂直搜索引擎可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。主题爬虫是垂直搜索引擎中的重要组成部分。主题爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。 本文分析了主题爬虫的系统结构、技术原理,重点讨论了爬虫的主题表达、页面的主题相关性分析和主题搜索算法。本文的主要研究工作如下: 1)在主题表达方面,基于关键词集合的主题表达不全面、精度不高,对此,本文提出了一种基于关键词动态扩充的表示方法。首先,需要构建一个基本的关键词集合;其次,本文提出了一种基于位置的TF-IDF(Term Frequency-Inverse Document Frequency)加权算法,根据文本在网页中的位置进行加权,可以提取网页的特征词;最后,在爬虫爬行的过程中,利用页面与主题的相似度和单词匹配频率等信息扩充特征词到主题库集合中,进而提升主题表达精度和覆盖面。 2)本文分析了Shark Search搜索算法,针对该算法在有些方面的不足进行了改进。在Shark Search算法中,主题爬行策略采用的是链接上下文信息,但是,网页中的链接上下文信息经常充斥着噪音,反而会干扰链接的预测。本文提出利用URL字符本身的信息来替代链接上下文信息。因为URL字符串能代表其指向的网页内容,本文通过分析URL字符串的结构,得到一些启发式信息,利用这些信息可以将URL字符串“翻译”为可识别的文本信息,有利于计算它们与主题的相似度。此外,Shark Search算法是贪婪的,因此,很难在Web图中找到全局最优解,本文引入了隧道分析技术来解决Shark Search算法的贪婪性问题。 本文综合基于关键词动态扩充的主题爬行算法和改进的Shark Search算法,将主题表示和主题预测结合起来,从整个系统的角度来提高爬虫的性能。经过实验证明,主题爬虫在精度和召回率上上都有提高,由此说明,本文的方法是有效的。
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
2 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
3 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
4 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
5 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
6 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
7 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
8 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
9 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期
10 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
中国重要会议论文全文数据库 前10条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
4 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
6 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
9 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
7 壮壮;批量保存网页信息[N];电脑报;2004年
8 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
9 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
10 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
7 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
10 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘建明;垂直搜索引擎中的主题爬虫技术研究[D];广东工业大学;2013年
2 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
3 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
4 陈高维;基于垂直搜索引擎的旅游线路评价推荐系统的设计与实现[D];电子科技大学;2010年
5 王延臣;基于高校信息垂直搜索引擎的研究与实现[D];沈阳建筑大学;2012年
6 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
7 王鹏;垂直搜索引擎的研究[D];武汉理工大学;2010年
8 黄胜根;智能垂直搜索引擎的研究与设计[D];重庆大学;2010年
9 乔宇;一种基于主题数据的存取调度模型的研究[D];北京邮电大学;2011年
10 许厚金;垂直搜索引擎及其关键方法研究[D];燕山大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026