收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于蚁群算法的主题爬虫技术研究与实现

崔金国  
【摘要】: Internet的发展彻底改变了人们的思维、生活与习惯。一方面,它使我们更容易获取各种各样的信息,而另一方面,要想在数十亿网页的网络信息中精确地找到自己需要的信息如“大海捞针”一般。搜索引擎的产生彻底改变了人们的生活方式,使人们能从信息海洋中迅速找到想要找的信息。 但随着互联网中信息的日益增多,以及网络、存储和计算等资源的有限性,传统的搜索技术已经逐渐难以满足人们的需求,其局限性日益突出。因此,人们迫切需要一种更智能、更精确、更专业的搜索技术,将网上的信息更好地展现出来。这时便产生了垂直搜索引擎,它被作为解决传统搜索引擎局限性的一种潜在方案。 垂直搜索引擎是信息检索的发展趋势,其核心——主题爬虫技术已成为当前研究的热点之一。主题爬虫就是遍历Web,但有选择的爬行与特定主题相关的网页,并避免爬行非相关网页。利用主题爬虫技术把搜索的范围缩小到Web的一部分,并有选择的爬行特定领域(或主题)的网页,建立面向主题的垂直搜索引擎。因此,主题爬虫在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的实时性。 本文首先介绍了搜索引擎的基础理论,引出垂直搜索引擎;其次对主题爬虫技术理论进行了研究,重点研究了超链接分析技术PageRank算法、主题爬虫技术相关概念等知识;最后对蚁群算法指导主题爬虫的相关理论进行了深入分析,其中重点分析了蚁群算法并用Java语言将其实现,紧接着分析了服务器日志以及对Web日志的挖掘。 目前主题爬虫搜索策略的主要困难在于: (1)主题爬虫对Web搜索空间中信息资源的整体分布是未知的,不能很好地预测爬行方向。 (2)现阶段的主题爬虫思想大多通过分析锚文本以及链接内容的主题相关性的策略来指导爬虫爬行,不具有“启发性”指导策略。 (3)为了优先爬行高质量的相关网页,研究者们设计了许多启发策略和相关算法,虽然目前出现的“启发式”搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计,据此推断出大致的搜索方向,但是这种方法的计算量大、时空复杂度高,目前也没有找到很合适的学习算法来指导训练过程。 本文提出了一种基于蚁群算法的主题爬虫技术,从Web日志信息中挖掘出群体用户的浏览路径,从而能“启发性”的指导主题爬虫。最后,通过实验实现了一个主题爬虫,比较了基于蚁群算法的主题爬虫和传统的主题爬虫两者的不同,得出结论基于蚁群算法的主题爬虫技术能够更好地指导主题爬虫。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘小梅;张君静;;蚁群优化算法基本原理及其应用[J];西部探矿工程;2008年10期
2 刘文;郑丽英;;基于蚁群算法的模糊C均值聚类[J];太原科技;2009年01期
3 孙云山;王学深;刘健;白婧;刘凯;赵冬青;;蚁群算法及其在物流系统中的应用研究[J];科技情报开发与经济;2010年16期
4 李方洁;刘希玉;;基于渐进蚁群算法的DNA多序列比对[J];网络安全技术与应用;2010年09期
5 于连伯;;蚁群算法的研究[J];江苏科技信息;2010年09期
6 陈烨;带杂交算子的蚁群算法[J];计算机工程;2001年12期
7 丁滢颍,何衍,蒋静坪;基于蚁群算法的多机器人协作策略[J];机器人;2003年05期
8 高尚;武器-目标分配问题的蚁群算法[J];计算机工程与应用;2003年03期
9 陈崚,沈洁,秦玲,陈宏建;基于分布均匀度的自适应蚁群算法[J];软件学报;2003年08期
10 纪竹亮,戴连奎;一种改进的自适应路由算法[J];计算机工程;2004年09期
11 杨燕,靳蕃,Mohamed Kamel;一种基于蚁群算法的聚类组合方法[J];铁道学报;2004年04期
12 闻育,吴铁军;求解复杂多阶段决策问题的动态窗口蚁群优化算法[J];自动化学报;2004年06期
13 许毅,李腊元;基于蚁群算法的QoS多播路由优化算法[J];计算机应用研究;2005年02期
14 王俊峰,朱庆保;基于蚁群算法的知识约简[J];南京师范大学学报(工程技术版);2005年02期
15 师凯,蔡延光,邹谷山,王涛;运输调度问题的蚁群算法研究[J];计算技术与自动化;2005年03期
16 胡燕海,叶飞帆;基于蚁群算法的平行流水作业计划方法[J];机械制造;2005年09期
17 冯远静,冯祖仁,彭勤科;一类自适应蚁群算法及其收敛性分析[J];控制理论与应用;2005年05期
18 肖伟;全惠云;;具有调和特性的蚁群改进算法[J];计算机工程与应用;2005年34期
19 黄永青;梁昌勇;张祥德;;基于均匀设计的蚁群算法参数设定[J];控制与决策;2006年01期
20 林海波;颜学峰;钱锋;;基于蚁群算法的TSP的改进求解算法[J];计算机与数字工程;2006年02期
中国重要会议论文全文数据库 前10条
1 关洪浩;唐巍;;蚁群算法的生成树在配电网网架规划中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
2 吴正伟;吉文来;陈伟佳;卢扣;;基于蚁群算法的城市紧急救援最佳路径选择[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
3 王鹤;邵良杉;邱云飞;;蚁群算法在露天矿运输系统路径优化中的应用[A];第五届全国煤炭工业生产一线青年技术创新文集[C];2010年
4 刘杰;闫清东;;基于蚁群算法的移动机器人路径规划技术的研究[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
5 严彬;熊伟清;程美英;叶青;;基于拥塞控制的多种群二元蚁群算法[A];第二十七届中国控制会议论文集[C];2008年
6 肖岭;熊辉;;一种针对频率指配问题的改进蚁群算法[A];电波科学学报[C];2011年
7 宋春峰;侯媛彬;赵圣刚;;蚁群算法在陀螺温控系统中的应用研究[A];第十四届全国煤矿自动化学术年会暨中国煤炭学会自动化专业委员会学术会议论文集[C];2004年
8 张如伟;黄捍东;赵迪;;一种新的地震非线性反演方法[A];中国地球物理学会第二十四届年会论文集[C];2008年
9 师凯;蔡延光;邹谷山;王涛;;运输调度问题的蚁群算法研究[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
10 陈峻;沈洁;秦玲;;蚁群算法进行连续参数优化的新途径[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
中国博士学位论文全文数据库 前10条
1 刘波;蚁群算法改进及应用研究[D];燕山大学;2010年
2 郭乘涛;基于问题分解与蚁群算法的半导体晶圆制造系统调度方法的研究[D];上海交通大学;2012年
3 许志红;交流接触器智能化控制与设计技术的研究及实现[D];福州大学;2006年
4 薛云;基于蚁群算法和支持向量机的矿化蚀变信息提取研究[D];中南大学;2008年
5 顾中舜;中继卫星动态调度问题建模及优化技术研究[D];国防科学技术大学;2008年
6 王翔;混合蚁群算法及其在管理优化中的应用[D];东华大学;2012年
7 刘传文;仿生优化算法在数字图像处理中的应用研究[D];武汉理工大学;2008年
8 陈宝文;蚁群优化算法在车辆路径问题中的应用研究[D];哈尔滨工业大学;2009年
9 唐连生;突发事件下的车辆路径问题研究[D];西南交通大学;2008年
10 何荥;用信息法研究天空亮度分布[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
2 傅宏;基于遗传多蚁群算法的QoS组播路由算法研究[D];重庆大学;2010年
3 潘鹏竹;协同制造调度问题的蚁群算法研究[D];沈阳工业大学;2010年
4 饶跃东;基于改进蚁群算法的无人飞行器航迹规划应用研究[D];武汉理工大学;2010年
5 邵晓路;蚁群群体智能网络可视化试验平台研制[D];浙江理工大学;2010年
6 吕海鹏;改进蚁群算法在YKK系列中型高压电机优化设计中的应用[D];哈尔滨理工大学;2010年
7 刘志勇;基于蚁群算法与竞选算法的作业车间调度求解及比较研究[D];广东工业大学;2011年
8 张守年;改进的蚁群算法及其在QoS中的应用[D];华南理工大学;2010年
9 林时来;基于蚁群算法的呼吸信号情感识别研究[D];西南大学;2011年
10 孙莹;无底柱分段崩落法矿山生产调度系统优化研究[D];西安建筑科技大学;2010年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 惠永辉 徐源;张昌龙—— 勇于挑战难题[N];解放军报;2009年
6 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
7 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
8 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
9 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
10 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978