基于多策略的微博情感极性分析研究
【摘要】:微博是具有很强时效性和随意性的网络社交平台,自2007年在国内出现以来经历了飞速发展。微博中包含了涉及各个领域的海量信息。通过对微博进行情感分析研究,可以挖掘出很多有价值的信息如用户对某件商品的评价、网民对某件社会事件的看法、对政府制定某项政策的意见等。对微博进行情感分析研究具有非常现实而深远的意义。基于此,本文针对微博进行情感极性分类研究,提出多策略的微博情感判断方法,主要研究内容包括以下几点:(1)针对微博情感分类问题研究微博的语言特征,采用基于微博表情符号、基于情感词典及改进后的SVM的微博情感分类三种方法进行微博情感极性判断。(2)对实验需用到的基础情感词典进行扩展和完善,整理常用的微博表情符号和网络情感词与基础情感词典一起合并形成新的微博情感词典。将完善后的情感词典和否定词词典及程度词词典等合并构建微博文本词库。(3)研究并改进基于SVM的微博情感分类方法,最终选择基础情感词、网络情感词、微博表情符号、否定词等作为微博极性分类特征。进行多组实验选择合适的SVM核函数因子值提高微博观点句和极性分类器性能。(4)通过实验研究训练集及核函数因子c和g值对微博分类结果的影响。实验结果显示改进后的基于SVM的微博情感分类方法的实验结果准确率为83.1%,优于改进前的基于SVM、基于情感词典及基于微博表情符号的方法结果,效果可观。