基于改进的信息增益和LDA的文本分类研究
【摘要】:随着网络越来越普及,如何从海量信息中快速有效地获取目标信息成为人们关注的焦点。虽然网络信息的形式多种多样,比如有图像、音频、视频等类型,但是80%的信息依然是以文本形式呈现的,因此,是否能高效的管理文本信息就成为了能否顺利应对海量信息的关键,文本分类作为一种管理文本信息的高效方式,在数据挖掘领域一直都是研究热点。文本信息具有高维性、离散度高、稀疏性等特征,而中文博大精深,经常会出现一词多义、一义多词等情况,而且不像英文单词天然被分割开来,所以分词算法的好坏很大程度上能影响最终的分类效果,所以针对中文的文本分类具有更高的复杂性,这些因素在分类过程中带来不少的挑战,严重影响文本分类的精确度。所以,如何提高特征选择的效率成了提高文本分类效果的关键所在。传统的信息增益算法往往有以下缺点。第一,由于未考虑到特征词的词频信息与类别信息之间的相关性,会导致特征词的信息增益计算不准确;第二,由于传统算法是以统计学为基础的,会忽略特征词之间的相关性,从而导致未能考虑语义信息。本文提出了基于类信息的信息增益算法,并将之与LDA主题模型相结合,以此方法来解决以上问题。针对第一个缺点,本文将在类的概念基础上,从类间和类内两个角度来分析,将类间词频、类间分散度、类内词频、类内聚合度与信息增益的计算结合起来,通过加入这些值来修正信息增益计算公式。类间词频、类间分散度描述了特征词在各个类上的分布,反应了特征词在类之间离散度,主要表示了特征词对某些类别的代表程度;类内词频、类内聚合度描述了特征词在指定的类内之中各个文本上的分布,反应了特征词在该类别中各个文本上分布的离散度,主要表示了特征词对指定类别的代表程度。针对第二个缺点,本文将在采用LDA主题模型来解决,在对LDA模型进行建模时,LDA通过同过主题来表达特征词之间的相关性,这样一来,一些语义相近的特征词就会被联系在一起,而一些例如同义词等冗余信息就会被剔除。最后通过SVM分类算法来进行分类,通过采用不同的特征选择算法:传统的信息增益算法、基于类信息的信息增益算法、LDA主题模型、基于类信息的信息增益算法与LDA主题模型结合来进行对比实验,得出本文提出的基于类信息的信息增益算法与LDA主题模型相结合的方法可以提高分类效果。