基于半监督递归自编码的情感分类研究
【摘要】:文本情感分析在数据挖掘领域有着十分重要的地位,文本情感分类又是文本情感分析中的一项重要研究内容。文本情感分类是指利用自然语言处理方式,对文本的主观情感倾向性进行分析,包括抽取文本中与情感倾向性判断有关的各个要素,判断文本的情感倾向性等。文本的情感倾向性可以分为正面、负面、中立等不同情况。针对互联网上的海量评论文本,如何对其进行快速有效的分析与利用引起了越来越多学者的重视。目前关于情感分类问题的研究,主要分为基于情感词典的情感分类和基于机器学习的情感分类两大类,且都取得了不错的成果。但由于基于情感词典的分类方法中情感词典的好坏将直接影响最终分类的准确率,而情感词典的构建又完全依赖于人的主观经验,因而很多学者着力于构建更好更完整的情感词典。在基于传统机器学习的方法中,建模的过程中通常使用较简单的函数,计算也往往使用诸如统计等一些简单的运算方法,所以通常被认为是浅层学习。本文引入基于深层学习的半监督递归自编码(RAE, Recursive Auto Encoders)方法来解决中文文本的情感分类问题,它通过学习非线性的深层网络结构,利用分布式向量来表达文本的特征,从而弥补了浅层学习在表达能力和泛化能力方面的约束。为了证明半监督RAE方法的有效性,文中首先建立传统的支持向量机(SVM, Support Vector Machine)情感分类模型进行文本情感分类,得到的最优情感分类结果是87%。然后利用基于深层学习的半监督RAE方法,得到的最优文本情感分类结果为88.3%,在文本预处理、特征选择等处理过程与基于传统SVM方法完全相同的情况下,准确率提高了1.3个百分点。