收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于蚁群算法的主题爬虫技术研究与实现

崔金国  
【摘要】: Internet的发展彻底改变了人们的思维、生活与习惯。一方面,它使我们更容易获取各种各样的信息,而另一方面,要想在数十亿网页的网络信息中精确地找到自己需要的信息如“大海捞针”一般。搜索引擎的产生彻底改变了人们的生活方式,使人们能从信息海洋中迅速找到想要找的信息。 但随着互联网中信息的日益增多,以及网络、存储和计算等资源的有限性,传统的搜索技术已经逐渐难以满足人们的需求,其局限性日益突出。因此,人们迫切需要一种更智能、更精确、更专业的搜索技术,将网上的信息更好地展现出来。这时便产生了垂直搜索引擎,它被作为解决传统搜索引擎局限性的一种潜在方案。 垂直搜索引擎是信息检索的发展趋势,其核心——主题爬虫技术已成为当前研究的热点之一。主题爬虫就是遍历Web,但有选择的爬行与特定主题相关的网页,并避免爬行非相关网页。利用主题爬虫技术把搜索的范围缩小到Web的一部分,并有选择的爬行特定领域(或主题)的网页,建立面向主题的垂直搜索引擎。因此,主题爬虫在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的实时性。 本文首先介绍了搜索引擎的基础理论,引出垂直搜索引擎;其次对主题爬虫技术理论进行了研究,重点研究了超链接分析技术PageRank算法、主题爬虫技术相关概念等知识;最后对蚁群算法指导主题爬虫的相关理论进行了深入分析,其中重点分析了蚁群算法并用Java语言将其实现,紧接着分析了服务器日志以及对Web日志的挖掘。 目前主题爬虫搜索策略的主要困难在于: (1)主题爬虫对Web搜索空间中信息资源的整体分布是未知的,不能很好地预测爬行方向。 (2)现阶段的主题爬虫思想大多通过分析锚文本以及链接内容的主题相关性的策略来指导爬虫爬行,不具有“启发性”指导策略。 (3)为了优先爬行高质量的相关网页,研究者们设计了许多启发策略和相关算法,虽然目前出现的“启发式”搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计,据此推断出大致的搜索方向,但是这种方法的计算量大、时空复杂度高,目前也没有找到很合适的学习算法来指导训练过程。 本文提出了一种基于蚁群算法的主题爬虫技术,从Web日志信息中挖掘出群体用户的浏览路径,从而能“启发性”的指导主题爬虫。最后,通过实验实现了一个主题爬虫,比较了基于蚁群算法的主题爬虫和传统的主题爬虫两者的不同,得出结论基于蚁群算法的主题爬虫技术能够更好地指导主题爬虫。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
11 宿建光;;指点通:移动垂直搜索的创新者[J];通信世界;2007年03期
12 王雪冬;李伟英;李强;;商业主题搜索引擎的研究[J];商场现代化;2008年29期
13 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
14 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期
15 祁宁;吴齐;赵青;;面向主题信息服务的垂直搜索引擎应用研究[J];图书馆学研究;2008年09期
16 王宁宁;;浅谈CNNIC最新报告对垂直搜索引擎领域的启示[J];图书馆理论与实践;2009年01期
17 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期
18 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
19 张晓宁;;走近垂直搜索[J];电子商务世界;2006年Z1期
20 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
中国重要会议论文全文数据库 前3条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年
6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
9 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
10 本报记者 胡钰;“去哪儿”网撬动在线旅游市场格局[N];华夏时报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978