中文商品评论倾向性分析研究
【摘要】:在电子商务大潮席卷世界的今天,如何快速、准确地收集到互联网上商品的评论信息,对商家掌握用户的喜好变化和潜在用户了解商品的流行趋势都具有重要的意义。如果单纯地依靠人工对这些评论性信息进行收集、分析和整理,显然是低效和昂贵的。而可以自动、有效地对这些信息进行处理的文本倾向性分析技术,已经成为当前自然语言处理领域中具有极高应用价值的研究热点。
本文针对中文的商品评论倾向性分析系统所涉及的三项关键性技术:中文句子倾向性检测、商品属性词和评价情感词抽取以及情感词的极性判别展开了研究。
(1)中文句子倾向性检测
提出了一种利用自适应算法和多分类器融合框架的跨语言句子倾向性检测方法。
首先,通过多翻译引擎服务将英文训练语料翻译为多份中文训练语料,以消除英文训练语料与中文测试语料的隔阂;其次,在多个分类器的训练过程中,引入了自适应算法,以提高分类器的精度;最后,对多个分类器进行融合,来提高分类结果的稳定性。
在选用NTCIR英文语料作为训练语料、NTCIR中文语料作为测试语料时,句子倾向性检测的F-measure值达到了65.55%,接近实验设定的上限67.35%。
(2)商品属性词和评价情感词抽取
提出了一种基于词性关系模板的商品属性词和评价情感词同步抽取算法。为了测试该算法的有效性,设计了一套新的语料标注规范,并依据规范建立了相应的语料集。
首先,通过有监督的序列规则挖掘算法从训练样本中挖掘出可能的词性依存关系模板;然后,利用高置信度的模板在测试样本中抽取出商品属性词和评价情感词二元组。在所设定的四个领域中进行实验,结果平均准确率达到54.18%,召回率为29.45%。
(3)情感词的极性判别
提出了一种基于PageRank算法的情感词极性判别方法。利用训练域种子情感词准确极性和测试域情感词临时极性来实现对测试域情感词的极性判别。实验结果表明,情感词的判别准确率可以达到90%以上。
最后,综合上述研究,设计并实现了一套面向汽车领域的商品评论倾向性分析系统。
|
|
|
|
1 |
;前言[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年 |
2 |
;前言[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
3 |
;前言[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年 |
4 |
;第十届全国计算语言学学术会议组织情况[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年 |
5 |
;第五届全国信息检索学术会议(CCIR 2009)[A];第五届全国信息检索学术会议论文集[C];2009年 |
6 |
;前言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年 |
7 |
;北京中易中标电子信息技术有限公司公司简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年 |
8 |
;中文信息的智能处理[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年 |
9 |
张耀允;王晓龙;王轩;徐睿峰;侯永帅;范士喜;;面向开放的限定领域的交互式问答语料分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年 |
10 |
嘎日迪;吾守尔.斯拉木;德熙嘉措;;代序[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年 |
|