面向评论文本的情感分析方法与优化研究
【摘要】:情感分析是自然语言处理的研究方向之一,在网络评论分析、舆情分析、问答系统和对话系统中都占据了重要地位。尤其在当今时代中,网络评论成为现代网民表达意见、感受观点的主要载体,在各种社交传播媒体中也占有着非常重要的比重。多数的网络评论呈现出网民对某个事件、现象或者某个产品的情感状态。然而,某一个产品的网络评论的数量可能会达到几十万条甚至更多,若采用人工去识别情感倾向虽然会有较好的效果,但是会产生巨大的工作量和高昂的人工成本。传统的统计算法又有准确率低、可用性不高的问题。那么,使用何种算法和计算方式能更准确、更快速的识别情感倾向成了自然语言处理领域的研究热点。本文分别探索了单倾向级情感分析和方面级情感分析的分类方法。主要的研究内容概括如下:(1)单倾向级情感分析。单倾向级情感分析旨在通过分析大量样本来预测句子的极性(一个句子只有一个情感倾向)。针对基于单向长短期记忆(Long Short Term Memory,LSTM)的常规结构,存在语言信息学习不全面的问题。本文提出了Twochannel Bidirectional LSTM(TCB-LSTM),该模型主要包含融合上下文信息的Bidirectional LSTM(BLSTM)和学习单词间重要性分布的加性软注意力机制,并且采用双通道模式提高模型的学习能力和单词表示的有效性。为验证模型的有效性,本课题采用准确率等6种指标做了对比实验并对实验结果进行了分析。实验结果表明,TCB-LSTM模型比其他传统机器学习算法有更出色的表现。(2)方面级情感分析。方面级情感分析旨在判断一个存在多方面的句子中每个方面的情感倾向。以往的工作主要采用LSTM和注意力机制来融合方面和句子之间的信息,或改进大型语言模型(如BERT)以适应方面级的情感分类任务。上述方法没有在整合方面词和句子交互信息的同时去考虑句子自身的特征提取。本文提出了Multi-Grained Attention Representation with ALBERT(MGAR-ALBERT)。它可以学习包含句子和方面词相关信息的表示,同时将其融入多粒度的句子建模过程中,最终得到一个综合的句子表示。在Masked LM(MLM)任务中,为了避免在预训练的初始阶段受到方面词被屏蔽的影响,噪声线性余弦衰减被引入到n-gram中。本课题实验与11个先进模型做对比,并进行消融实验来验证该方法的有效性。实验结果显示,本文提出的模型可以在减少大量参数的情况下在Restaurant数据集上取得优异的结果,并且在Laptop数据集上并不逊色于其他模型。