基于SVM分类算法的主题爬虫研究
【摘要】:近年来,随着互联网的快速发展,互联网上的信息量日益增长且呈现多元化的特点。于是如何能够迅速、准确而高效地为互联网用户定位所需要的信息,成为搜索引擎的主要目标。通用搜索引擎能够在较大的信息范围内获取信息,但是由于其涉及的领域过于宽泛,因此,在某些特定领域,无法给用户提供专业而深入的信息。于是,主题搜索引擎应运而生,它能够在某一特定领域,提供专业、精确而深入的搜索服务。本文以主题搜索引擎中的主题爬虫为研究内容,研究有效地爬取某一主题范围内网页的策略。
本文首先对主题爬虫的相关研究进行了综述,从通用爬虫和主题爬虫的主要组成结构、基于文字内容的启发式爬取策略、基于Web链接结构的评价方法,分析了当前爬取策略的优缺点。
采用向量空间模型将网页用数学方法表示,研究支持向量机算法的相关原理。提出了基于文字内容和部分链接信息的主题相关度预测算法,对未爬取的网页,预测其与主题的相关度。
对于已经爬取网页,首先使用SVM分类器过滤与主题无关的网页,然后使用HITS算法构建主题子图,选取权威度或中心度高的网页作为下次爬取的起始种子。
在小型开源搜索引擎TSE的基础上,构建主题爬虫,对爬取策略进行研究。本文将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,实现了基于SVM分类的主题爬虫。实验表明,本文提出的基于SVM分类的主题爬虫,能够较好地爬取与主题相关的网页。