收藏本站
收藏 | 论文排版

基于Web挖掘的主题搜索引擎网页抓取策略的研究

金斯特  
【摘要】:因特网的快速发展带动了时代的变迁。Web资源中蕴含着大量有价值的信息,作为一种新的资源,已经变得越来越重要。Web挖掘研究的主要任务就是如何从这么多的Web信息中高效地获取所需知识。然而,传统的通用搜索引擎对整个互联网缺乏针对性,搜索会造成大量无关的链接和信息,使得所得的结果效用低下。在这种情况下,面向特定领域的主题搜索引擎便应运而生,它很好地解决了通用搜索引擎存在的弊端,其核心就是主题网页抓取技术。对于该技术的研究已经成为了当前的热点和发展趋势。本文首先简单介绍了Web挖掘技术和搜索引擎技术的研究背景及国内外发展现状,分析了两者之间存在的共同点,并为这两者技术上的相互结合做了一定的可行性分析。然后介绍了主题搜索引擎的发展状况和重要作用,并主要以主题搜索引擎的主题网页抓取策略作为研究内容,把提高主题网页抓取的查全率和查准率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。接着从主题搜索爬虫的Best-First搜索算法中所存在的缺点着手,结合非贪婪策略等方法对算法进行了进一步优化,并用实验证明了新算法的优异性;最后设计并实现了一个主题Web挖掘系统原型,给出主题网络爬虫类的构成,设定的队列,数据库的设计等,并对整个系统性能进行了测试。


知网文化
【相似文献】
中国期刊全文数据库 前6条
1 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
2 王泽贤;;网络书目信息抓取系统的设计与实现[J];图书馆学研究;2010年23期
3 陈晓军;;网上素材轻松保存[J];电脑爱好者;2012年13期
4 宋远君;赵铭远;马静;;基于本体的无人机情报获取与分析系统研究[J];计算机科学;2012年S3期
5 陈琪;李永宏;于洪志;;藏文网页抓取及编码统一转换的系统研究[J];西北民族大学学报(自然科学版);2009年02期
6 ;[J];;年期
中国硕士学位论文全文数据库 前3条
1 金斯特;基于Web挖掘的主题搜索引擎网页抓取策略的研究[D];浙江工业大学;2014年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 谢治军;垂直搜索引擎的主题网页抓取策略研究[D];重庆理工大学;2012年
中国重要报纸全文数据库 前1条
1 ;参赛作品及点评 包含多种功能的上网助手[N];电脑报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978