基于深度学习的情感词向量及文本情感分析的研究
【摘要】:情感分析识别给定文本或其中片段(如句子、短语或词)的情感极性(正、负或中性)或情感强度(强或弱)。情感分析应用在产品评论分析可以识别用户对产品的情感,为商家和其他用户提供决策支持。以往研究多采用人工抽取特征和机器学习算法相结合构建识别系统。然而,人工抽取特征需要专家的领域知识,系统适应性差,人力成本高。近年研究者开始使用深度学习的方法来自动抽取特征。深度学习在自然语言处理中最基础的一个研究成果是词向量,即词的分布式语义表达,并在许多传统自然语言处理中得到应用。但是传统词向量根据上下文学习获得,包含语义和语法信息,缺乏情感信息,不能很好的解决情感分析任务。为了将情感信息融入到词向量中,本文第一部分工作提出了两个情感词向量学习框架,即,基于谷歌提出的Skip-gram模型的框架和基于卷积神经网络模型的框架。在每个框架中,根据情感和语义信息融合策略的不同,我们又分别提出三个具体模型。为了验证学习得到的情感词向量是否包含语义和情感信息,本文分别在不同语言、不同领域的多个数据集下进行了大量定性和定量的比较实验。这部分相关工作分别发表在2015年IALP会议和2016年IJCNN会议。为了将词的情感语义表达扩展到长文本上,本文第二部分工作提出基于深度学习的卷积神经网络对长文本进行情感语义建模,解决长文本(句子)情感分类。这部分相关工作应用在SemEval(国际标准语义评测)2015年和2016年的推文情感分析中,相关论文发表在2015和2016年SemEval会议上。更进一步,为了预测情感强度,本文第三部分工作将情感词向量与传统人工特征结合,构建有监督的排序模型预测情感强度。在2016年SemEval竞赛的英文短语情感强度预测任务中,这部分工作获得了第一名的好成绩。本文在不同文本层面(词、短语以及句子),不同语言(中文和英文)和不同领域(推文和评论)中进行了大量定性和定量的实验。实验结果表明,本文提出的情感词向量能有效包含情感和语义信息,模型具有较好的泛化性。