基于蚁群算法的主题爬虫技术研究与实现
【摘要】:
Internet的发展彻底改变了人们的思维、生活与习惯。一方面,它使我们更容易获取各种各样的信息,而另一方面,要想在数十亿网页的网络信息中精确地找到自己需要的信息如“大海捞针”一般。搜索引擎的产生彻底改变了人们的生活方式,使人们能从信息海洋中迅速找到想要找的信息。
但随着互联网中信息的日益增多,以及网络、存储和计算等资源的有限性,传统的搜索技术已经逐渐难以满足人们的需求,其局限性日益突出。因此,人们迫切需要一种更智能、更精确、更专业的搜索技术,将网上的信息更好地展现出来。这时便产生了垂直搜索引擎,它被作为解决传统搜索引擎局限性的一种潜在方案。
垂直搜索引擎是信息检索的发展趋势,其核心——主题爬虫技术已成为当前研究的热点之一。主题爬虫就是遍历Web,但有选择的爬行与特定主题相关的网页,并避免爬行非相关网页。利用主题爬虫技术把搜索的范围缩小到Web的一部分,并有选择的爬行特定领域(或主题)的网页,建立面向主题的垂直搜索引擎。因此,主题爬虫在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的实时性。
本文首先介绍了搜索引擎的基础理论,引出垂直搜索引擎;其次对主题爬虫技术理论进行了研究,重点研究了超链接分析技术PageRank算法、主题爬虫技术相关概念等知识;最后对蚁群算法指导主题爬虫的相关理论进行了深入分析,其中重点分析了蚁群算法并用Java语言将其实现,紧接着分析了服务器日志以及对Web日志的挖掘。
目前主题爬虫搜索策略的主要困难在于:
(1)主题爬虫对Web搜索空间中信息资源的整体分布是未知的,不能很好地预测爬行方向。
(2)现阶段的主题爬虫思想大多通过分析锚文本以及链接内容的主题相关性的策略来指导爬虫爬行,不具有“启发性”指导策略。
(3)为了优先爬行高质量的相关网页,研究者们设计了许多启发策略和相关算法,虽然目前出现的“启发式”搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计,据此推断出大致的搜索方向,但是这种方法的计算量大、时空复杂度高,目前也没有找到很合适的学习算法来指导训练过程。
本文提出了一种基于蚁群算法的主题爬虫技术,从Web日志信息中挖掘出群体用户的浏览路径,从而能“启发性”的指导主题爬虫。最后,通过实验实现了一个主题爬虫,比较了基于蚁群算法的主题爬虫和传统的主题爬虫两者的不同,得出结论基于蚁群算法的主题爬虫技术能够更好地指导主题爬虫。
|
|
|
|
1 |
刘小梅;张君静;;蚁群优化算法基本原理及其应用[J];西部探矿工程;2008年10期 |
2 |
刘文;郑丽英;;基于蚁群算法的模糊C均值聚类[J];太原科技;2009年01期 |
3 |
孙云山;王学深;刘健;白婧;刘凯;赵冬青;;蚁群算法及其在物流系统中的应用研究[J];科技情报开发与经济;2010年16期 |
4 |
李方洁;刘希玉;;基于渐进蚁群算法的DNA多序列比对[J];网络安全技术与应用;2010年09期 |
5 |
于连伯;;蚁群算法的研究[J];江苏科技信息;2010年09期 |
6 |
陈烨;带杂交算子的蚁群算法[J];计算机工程;2001年12期 |
7 |
丁滢颍,何衍,蒋静坪;基于蚁群算法的多机器人协作策略[J];机器人;2003年05期 |
8 |
高尚;武器-目标分配问题的蚁群算法[J];计算机工程与应用;2003年03期 |
9 |
陈崚,沈洁,秦玲,陈宏建;基于分布均匀度的自适应蚁群算法[J];软件学报;2003年08期 |
10 |
纪竹亮,戴连奎;一种改进的自适应路由算法[J];计算机工程;2004年09期 |
11 |
杨燕,靳蕃,Mohamed Kamel;一种基于蚁群算法的聚类组合方法[J];铁道学报;2004年04期 |
12 |
闻育,吴铁军;求解复杂多阶段决策问题的动态窗口蚁群优化算法[J];自动化学报;2004年06期 |
13 |
许毅,李腊元;基于蚁群算法的QoS多播路由优化算法[J];计算机应用研究;2005年02期 |
14 |
王俊峰,朱庆保;基于蚁群算法的知识约简[J];南京师范大学学报(工程技术版);2005年02期 |
15 |
师凯,蔡延光,邹谷山,王涛;运输调度问题的蚁群算法研究[J];计算技术与自动化;2005年03期 |
16 |
胡燕海,叶飞帆;基于蚁群算法的平行流水作业计划方法[J];机械制造;2005年09期 |
17 |
冯远静,冯祖仁,彭勤科;一类自适应蚁群算法及其收敛性分析[J];控制理论与应用;2005年05期 |
18 |
肖伟;全惠云;;具有调和特性的蚁群改进算法[J];计算机工程与应用;2005年34期 |
19 |
黄永青;梁昌勇;张祥德;;基于均匀设计的蚁群算法参数设定[J];控制与决策;2006年01期 |
20 |
林海波;颜学峰;钱锋;;基于蚁群算法的TSP的改进求解算法[J];计算机与数字工程;2006年02期 |
|