基于RBF网络的文本自动分类的研究
【摘要】:
在现实世界中,人们可获取的大部分信息来自文本数据库(或文档数据库),文本数据库包含大量来自各种数据源(如新闻、研究论文、报告、书籍、杂志等)的文档。近年来,随着计算机技术和Internet的飞速发展,每天都会产生大量的电子文档,使得文本数据库的总量以惊人的速度膨胀。要有效地利用这些海量的文本数据,必须把它们按其内容进行分门别类的整理,而这个工作如果靠人工来完成,将要耗费许多具有丰富经验和专门知识的分类人员的大量劳动,显然这种方式具有周期长、费用高、效率低的缺点,在信息爆炸的今天很难满足实际需要,因此利用计算机技术对大量文本进行自动分类就成为了当前一个日益流行、而且具有重要意义的研究课题。
对文本进行自动分类,涉及到许多领域的理论和技术,主要有概率统计、信息检索、数据挖掘、自然语言理解、模式识别和机器学习等,所以非常具有综合性和挑战性。
目前大多数文本分类方法都是基于相似度的,即为每一个目标类训练(学习)一个类别特征向量,对新的待分类文本特征向量,计算它与每一个类别特征向量的相似度,返回相似度最高的类别特征向量的类标号作为该文本的预测类别。但这种方法存在两个问题:首先,有些类内部不一定有很大的相似性,例如,“体育”类中与篮球有关的文章和与拳击有关的文章,其内容就有很大的区别;其次,每篇文章常常可以同时属于多个类,例如一篇数据挖掘的文章很有可能也属于人工智能类的文章。
基于上述原因,本文提出用RBF网络进行文本自动分类的方法,本方法的主要思路是:首先对训练集进行聚类,得到若干个簇,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低。为每一个簇的中心定义相应的径向基函数(Radial Basis Function,RBF),再对这些径向基函数构成的两层神经网络进行训练,同时,为了避免产生过度拟合现象,本文采用了岭回归技术,即在代价函数中加入一个包含适当正规化参数的权值惩罚项,从而保证网络输出函数具有一定的平滑度。由于本方法考虑到了每个类内部不同簇之间的差异性,因此很好的解决了前述的第一个问题。这种方法也可以解决上述的“兼类”问题,若新文本的特征向量在多个类的径向基函数网络上的输出值都超过了阈值,则可认为它同时属于这几个类。
我们在实验中利用径向基函数网络进行文本自动分类取得了较好的分类效果,分类准确率稳定保持在90%附近。但是仍然存在几个问题尚待解决:首先,聚类时怎样自动确定簇的个数和半径;其次,如何利用含有多个正规化参数的局部岭回归方法进行RBF网络学习;第三,如果簇的形状是不规则的,则它很难用径向基函数来描述,因此需要研究其它能代表不规则形状的簇的基函数。这些问题都有待于我们在今后的工作中作进一步研究。