基于改进贝叶斯算法的中文信息分类研究
【摘要】:随着互联网的迅速发展,网络上出现了成千上万的新文本。大多数数据以文本的形式存储,数据呈指数增长,这些条件可能会导致我们进入信息爆炸时代。要管理如此庞大的文本量,文本分类问题亟待解决。其次,基于朴素贝叶斯的文本分类是建立在条件独立性假设的基础上的,这与现实不符。在众多通过弱化特征独立性假设来提高其准确性的建议中,特征加权方法受到的关注较少。而且,现有的特征加权方法都只是将学习到的特征权重合并到朴素贝叶斯公式中,根本没有将学习到的特征权重合并到其条件概率中。因此,本论文从特征加权的角度出发,提出了基于词频-逆文档频率特征权重和等级因子特征权重的贝叶斯算法,并将它应用到中文文本分类中,可以有效地管理庞大而复杂的数据,协助人们快速的查找信息并节约时间成本。本文的主要研究内容如下:(1)对文本分类中常用的朴素贝叶斯、KNN、支持向量机三种方法进行了比较。通过研究和实验,其结果说明朴素贝叶斯算法是中文文本分类中效果最佳的算法。(2)提出了一种基于词频-逆文档频率特征权重和等级因子特征权重的朴素贝叶斯算法—特征加权朴素贝叶斯算法。该算法将词频-逆文档频率特征权重合并到贝叶斯的条件概率公式中,其次将由词频-逆文档频率决定的等级因子特征权重导入到贝叶斯公式中,可以大大削弱其特征独立性假设的影响。(3)本文将特征加权朴素贝叶斯算法应用到中文文本分类中。由于网络上各种语料库错综复杂,目前针对中文文本分类问题至今没有一个可以一致使用的语料库,所以论文根据筛选规则构建了中文语料库。实验表明,特征加权朴素贝叶斯算法在文本分类领域的准确率高于标准的朴素贝叶斯算法,从而验证了提出的新算法是一种更有效、更准确的文本信息分类算法。