基于URL规则的聚焦爬虫及其应用
【摘要】:
随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域已经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,聚焦爬虫就是其中的一个重点需要解决的问题。
本文首先基于用同一个模板产生的动态网页其内容往往是属于同一个主题的且其URL是非常相似的这个规律,提出了一个基于URL规则的聚焦爬虫(URL Rule Based Focused Crawl,简称UBFC)的算法,即从每个主题网页相关站点中自动学习出代表主题相关网页URL和主题无关网页URL的正则表达式,并用这些正则表达式来指导聚焦爬虫的抓取。接着介绍了UBFC在Nutch系统上的实现和URL正则表达式学习算法。最后我们对UBFC进行了应用和分析,特别是与广度优先搜索爬虫(BFSC)、基本聚焦爬虫(BLFC)的比较分析,表明UBFC在收获率上比后两者有了明显的提高,而且招回率也明显高于BLFC。