收藏本站
《成都理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于蚁群算法的主题爬虫技术研究与实现

崔金国  
【摘要】: Internet的发展彻底改变了人们的思维、生活与习惯。一方面,它使我们更容易获取各种各样的信息,而另一方面,要想在数十亿网页的网络信息中精确地找到自己需要的信息如“大海捞针”一般。搜索引擎的产生彻底改变了人们的生活方式,使人们能从信息海洋中迅速找到想要找的信息。 但随着互联网中信息的日益增多,以及网络、存储和计算等资源的有限性,传统的搜索技术已经逐渐难以满足人们的需求,其局限性日益突出。因此,人们迫切需要一种更智能、更精确、更专业的搜索技术,将网上的信息更好地展现出来。这时便产生了垂直搜索引擎,它被作为解决传统搜索引擎局限性的一种潜在方案。 垂直搜索引擎是信息检索的发展趋势,其核心——主题爬虫技术已成为当前研究的热点之一。主题爬虫就是遍历Web,但有选择的爬行与特定主题相关的网页,并避免爬行非相关网页。利用主题爬虫技术把搜索的范围缩小到Web的一部分,并有选择的爬行特定领域(或主题)的网页,建立面向主题的垂直搜索引擎。因此,主题爬虫在很大程度上能节省硬件和网络资源,提高检索结果的查准率和质量,保证爬行的实时性。 本文首先介绍了搜索引擎的基础理论,引出垂直搜索引擎;其次对主题爬虫技术理论进行了研究,重点研究了超链接分析技术PageRank算法、主题爬虫技术相关概念等知识;最后对蚁群算法指导主题爬虫的相关理论进行了深入分析,其中重点分析了蚁群算法并用Java语言将其实现,紧接着分析了服务器日志以及对Web日志的挖掘。 目前主题爬虫搜索策略的主要困难在于: (1)主题爬虫对Web搜索空间中信息资源的整体分布是未知的,不能很好地预测爬行方向。 (2)现阶段的主题爬虫思想大多通过分析锚文本以及链接内容的主题相关性的策略来指导爬虫爬行,不具有“启发性”指导策略。 (3)为了优先爬行高质量的相关网页,研究者们设计了许多启发策略和相关算法,虽然目前出现的“启发式”搜索策略可以借助某些领域知识对信息资源的分布情况做出某种程度的估计,据此推断出大致的搜索方向,但是这种方法的计算量大、时空复杂度高,目前也没有找到很合适的学习算法来指导训练过程。 本文提出了一种基于蚁群算法的主题爬虫技术,从Web日志信息中挖掘出群体用户的浏览路径,从而能“启发性”的指导主题爬虫。最后,通过实验实现了一个主题爬虫,比较了基于蚁群算法的主题爬虫和传统的主题爬虫两者的不同,得出结论基于蚁群算法的主题爬虫技术能够更好地指导主题爬虫。
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前6条
1 陈永彬;基于聚焦爬虫技术的教学资源搜集与自动整理方法研究[D];东北师范大学;2011年
2 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年
3 刘丽杰;垂直搜索引擎中聚焦爬虫技术的研究[D];哈尔滨工程大学;2012年
4 张晓雷;面向Web挖掘的主题网络爬虫的研究与实现[D];西安电子科技大学;2012年
5 王建彬;基于相似性博客推荐技术的研究与应用[D];内蒙古科技大学;2012年
6 李五一;房地产交易信息搜索和匹配技术的研究与实现[D];杭州电子科技大学;2013年
【参考文献】
中国硕士学位论文全文数据库 前10条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
2 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
3 谢琴;蚁群算法在Web日志挖掘中的研究与应用[D];重庆大学;2006年
4 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年
5 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
6 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
7 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年
8 张宏松;基于Lucene的web站内英文PDF文档全文检索研究[D];辽宁工程技术大学;2007年
9 李沛环;基于Lucene的搜索引擎的设计和优化[D];吉林大学;2008年
10 于海;基于Lucene的垂直搜索引擎设计[D];吉林大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
2 吴建;;基于Lucene的校园网搜索引擎的设计与实现[J];湖南工程学院学报(自然科学版);2012年02期
3 黄江平;黄理灿;徐玲;;基于Lucene的PDF文档的全文检索的实现[J];工业控制计算机;2012年05期
4 杨文刚;;基于Lucene.net的档案垂直搜索引擎的实现[J];北京档案;2012年10期
5 孟燕;;杭州动漫交易平台建设实践研究——《基于Lucene技术的多媒体互动学习平台的研究与设计》子课题研究[J];计算机光盘软件与应用;2013年01期
6 赵峰;;基于Lucene的全文检索系统初探[J];黑龙江科技信息;2007年12期
7 李靖;文登敏;张润伟;;基于Lucene的全文检索引擎的研究与应用[J];淮阴工学院学报;2008年01期
8 邹燕飞;于成尊;赵亮;;基于Lucene的文本搜索引擎的设计和实现[J];计算机与现代化;2011年09期
9 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期
10 张娟;马力;梁俊杰;;基于lucene的校园网搜索引擎[J];合作经济与科技;2012年16期
中国硕士学位论文全文数据库 前10条
1 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
2 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
3 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年
4 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
5 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 袁黎明;双边网络视角下搜索引擎平台的隔离机制演进[D];北京交通大学;2011年
8 陈刚;基于行为分析智能推荐购物搜索引擎的设计与实现[D];北京交通大学;2011年
9 范先爽;基于个性化服务的汽车信息搜索引擎的研究[D];武汉理工大学;2011年
10 徐东丽;基于Crawler的Web服务搜索研究[D];大连海事大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 郑源;任海英;;时态GIS在房屋全生命周期管理信息平台中的设计与应用[J];北京测绘;2012年03期
2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
3 杨丹;曹俊;;基于Web2.0的社会性标签推荐系统[J];重庆工学院学报(自然科学版);2008年07期
4 唐远洋,黄尔嘉;知识挖掘技术与网络教育资源的组织[J];电化教育研究;2003年06期
5 陈丽君;;聚焦爬虫常见算法分析[J];电脑知识与技术;2008年S1期
6 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期
7 曾振东;;基于网络的教学资源库建设初探[J];广东青年干部学院学报;2008年02期
8 陈春明;徐义峰;;协同过滤算法中一种改进的相似性计算方法[J];桂林电子科技大学学报;2009年03期
9 赵燕;陈晓云;莫明辉;汤勇;;基于用户群的智能主题爬虫[J];广西师范大学学报(自然科学版);2007年02期
10 王纯杰;董小刚;刁心薇;;基于免疫粒子群的K均值聚类算法[J];广西师范大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前1条
1 宋洪鑫;李蕾;刘冬雪;;中文博客标签调查分析及标签推荐模型的研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 陈霄;DNA遗传算法及应用研究[D];浙江大学;2010年
2 杨剑峰;蚁群算法及其应用研究[D];浙江大学;2007年
3 刘波;蚁群算法改进及应用研究[D];燕山大学;2010年
中国硕士学位论文全文数据库 前10条
1 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
2 周君;Web文本挖掘关键技术的研究与实现[D];西安电子科技大学;2009年
3 赵广利;社会网络分析技术在博客媒体信任度中的研究与应用[D];内蒙古科技大学;2011年
4 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
7 姜卯生;数据挖掘中基于贝叶斯技术的分类问题的研究[D];合肥工业大学;2004年
8 庞博;基于代理结构的Web个性化推荐技术的研究与实现[D];东北大学;2005年
9 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
10 冯结兰;博客及其传播学意义探析[D];广西大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 戴旸;李晶;谢笑;;技术接受视角下的网络教学资源库用户使用意愿分析——以档案学教学资源库为例[J];现代教育技术;2012年10期
中国硕士学位论文全文数据库 前1条
1 魏丽娟;基于hadoop的网络爬虫技术研究[D];武汉理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
3 王佑镁;基于ePortfolio的信息化教学评价策略研究[J];电化教育研究;2003年12期
4 陈珊,陈妙姬;网络环境下协作探究式学习模式的研究[J];电化教育研究;2003年12期
5 李克东,赵建华;混合学习的原理与应用模式[J];电化教育研究;2004年07期
6 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
7 彭曙蓉,章兢,杨文忠;MD5算法在消除重复网页算法中的应用[J];电脑知识与技术;2005年29期
8 王学辉;金丹;;Lucene与关系型数据库对比[J];电脑知识与技术(学术交流);2007年03期
9 张晓林;分布式学科信息门户中网络信息导航系统的规范建设[J];大学图书馆学报;2002年05期
10 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
中国硕士学位论文全文数据库 前10条
1 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
2 朱素媛;网络教育中的智能搜索引擎的研究[D];合肥工业大学;2004年
3 史鹏辉;专业服务网站搜索引擎的设计与实现[D];大连理工大学;2004年
4 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
5 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
6 李刚;网络协作式学习资源库的研究与实现[D];第四军医大学;2005年
7 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
8 薛福亮;基于全文索引检索技术的在线答疑系统的设计与开发[D];天津师范大学;2005年
9 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年
10 邱正国;主题蜘蛛的研究及实现[D];南京师范大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
中国重要会议论文全文数据库 前3条
1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
4 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
5 记者 王浒;“去哪儿”旅行网完成第三轮1500万美元融资[N];中国旅游报;2009年
6 本报记者 王宏;搜索引擎 收费能催化市场吗[N];中国计算机报;2001年
7 徐瑾 张玉;市场潜力巨大 价值亟待挖掘[N];人民邮电;2009年
8 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
9 记者 吴德群;热门关键词两天抢注一空[N];深圳特区报;2009年
10 本报记者 胡钰;“去哪儿”网撬动在线旅游市场格局[N];华夏时报;2009年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 汲业;面向图像的垂直搜索引擎关键技术研究[D];大连海事大学;2013年
5 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
2 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
3 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
4 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
5 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年
6 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
7 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
8 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
9 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
10 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026