随机森林在文本分类上的应用研究
【摘要】:随着互联网的普及,计算机技术正在飞速的发展,我们在网络上制造了大量的信息数据,正在进入大数据的时代,信息呈现爆炸式增长。对于海量复杂的信息数据,需要有效地组织梳理进而挖掘其关联,文本分类就是解决这些问题的一个关键部分。随机森林是一种非常典型的组合分类器,通过引入随机性来构造出决策树的一种集合,具有较高分类准确率、克服了过拟合的问题,对异常值和噪声有良好的容忍性等特点,随机森林得到了十分广泛的应用,而且在文本分类领域取得了不错的效果。由于随机森林算法也存在很多的不足,某些方面还有待更加的完善。本文首先通过对文本分类的流程进行系统化的梳理,介绍了文本分类的预处理、特征抽取和特征选择等。其中,文本预处理主要是对分词、去停用词、词干提取进行了简单介绍,特征抽取和特征选择部分着重介绍了特征选择的一些方法。并且本文对文本分类领域常用的几种分类器模型:朴素贝叶斯、支持向量机、K近邻等算法进行了简要的介绍,介绍了分类器的性能评价指标。随后本文简述了随机森林的相关理论部分,并将文本分类和随机森林算法理论运用到实例中,以CNBC网站的金融新闻资讯作为数据源进行文本分类工作。