增量学习朴素贝叶斯中文分类系统的研究
【摘要】:
随着Internet的飞速发展,文本信息成几何级增长。为了能在海量的文本中及时准确地获得有效的知识和信息,文本分类技术受到了广泛的关注。朴素贝叶斯分类是目前公认的一种简单有效的概率分类方法,但是它不具备增量学习的功能。针对这种情况,本文提出改进的增量学习朴素贝叶斯算法。本文详细介绍了增量学习思路与增量学习朴素贝叶斯算法,并设计了一个增量朴素贝叶斯中文分类实验系统。
论文的主要内容包括如下几个方面:
1.描述了文本分类的一般过程,介绍了多种贝叶斯分类方法,对比研究分析其联系与差别。
2.对特征选择算法进行深入分析,提出一种结合特征项在各类别中的分布信息的改进的TFIDF特征选择方法。实验证明改进的方法选择出的特征有更强的类别表达能力。
3.针对朴素贝叶斯分类不具备增量学习的缺陷,提出增量学习朴素贝叶斯算法。详细介绍了增量学习思路,提出带选择性对文本进行增量学习的思想。在此基础上提出加权朴素贝叶斯方法增量学习算法,并对算法给出了详细证明与分析。
4.设计了一个增量朴素贝叶斯中文分类实验系统,使用两个中文数据集进行实验。实验结果表面,带增量学习的朴素贝叶斯分类方法在两个数据集上都比单纯的朴素贝叶斯分类效果要好。