基于网页特征的中文网页自动分类问题研究
【摘要】:
随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合理和有效地组织和管理网上信息,已经成为Web智能领域里一个十分重要的研究课题。随着网页信息容量的快速增长,依靠人工的方式来进行大量的网页分类是不合理的。因此,网页的自动分类研究成为了一个日益重要的研究领域,并且,它还逐步与信息检索技术(IR)、搜索引擎、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。
本文的研究内容主要有以下几个方面:
(1)对网页分类中的特征表示、特征项提取、分类方法等关键技术,以及难点和突出问题进行探讨和研究。
(2)本文在研究典型新闻网页特征的基础上,提出一种综合利用网页的URL特征、网页的内容特征和网页的结构特征构建的网页特征集,并在此基础上采用三种不同的分类算法构建分类器。实验结果表明,在本文所提出的新闻网页特征集的基础上构建的分类器能很好的识别新闻网页。
(3)本文在进一步研究中文网页特征的基础上,提出了一种利用网页链接信息来改进中文网页分类效果的方法。利用新闻网页自动识别方法过滤新闻网页中的噪音链接后,对有效链接进行分类,利用链接的类别特征来增强分类器的效果。实验结果表明,在本文提出的综合利用网页内容特征和网页的链接类别特征的基础上构建的分类器能很好的实现中文网页分类。
(4)面向主题的Web搜索引擎的设计与实现。利用新闻网页自动识别方法对搜索引擎爬虫进行控制,仅仅抓取网页中属于新闻类的页面,实现面向主题的Web搜索引擎。