收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于句法和语义挖掘的Web金融评论情感分析

江腾蛟  
【摘要】:随着Web2.0的兴起,互联网的网络体系由原来的少数资源掌控者控制的自上而下的结构,现已演变为由广大普通用户集体主导的自下而上的结构。同时,随着Internet技术的迅猛发展,网民队伍日益壮大且上网越来越便捷。在当前Web 2.0网络体系下,巨大的网民数量,加上便捷的上网方式和人们愿意分享、信任的态度,使得互联网上涌现出了海量的包括在线商品、新闻时政、社会公众人物和经济动态等在内的各种用户主观评论文本。评论文本情感分析可以广泛地应用于商业智能、社会舆情、经济预测、信息检索和问答系统等各个方面。评论文本情感分析已成为计算语言学、数据挖掘和人工智能等领域的一个研究热点;同时由于其所具有的重大应用价值,业已成为工业界关注的焦点。互联网上海量的用户评论文本中,也包括大量描述金融领域的文本数据,我们称之为Web金融评论。面向Web金融评论的细粒度情感分析,不仅可以为金融机构或投资者提供投资决策服务;还可作为上市企业财务预警的重要指标。目前针对评论文本的情感分析多集中在商品评论领域,针对Web金融评论的情感分析尚处在起步阶段。与商品评论情感分析不同,金融评论情感分析的难点在于:(1)评价对象数目繁多且构成形式更复杂。商品评论中的评价对象一般为名词或名词短语;在金融评论中,评价对象除了名词或名词短语,还可能是主谓短语、动宾短语等从句形式。(2)评价对象频数差别大。商品评论中,评价对象的分布比较均匀;在金融评论中,由于数据源中针对各评价对象的评论数量受国家政策、企业发展等影响较大,因而各评价对象出现的频数差距也很大。(3)情感词的词性更丰富,句法成分相应地也更灵活。在商品评论中,情感词多为形容词。在金融评论中,情感词的词性更为丰富,除了形容词,还有动词、名词,尤为突出的是动词情感词占比高。(4)虚指评价对象更常见。由于金融评论中评价对象的繁多及组成形式复杂,而中文表达要求言简意赅,因此,中文金融评论中习惯于使用缩略、指代等虚指评价对象形式。(5)隐式评价对象更频繁。由于金融评论多长句,而中文表达习惯中长句常出现缺省或隐含等语言特点,故造成了金融评论中存在较多隐式评价对象。(6)奇异评价对象更多。商品评论中的评价对象一般为产品的特征或属性,为无情感极性的名词或名词短语;金融评论中,由于评价对象组成的复杂性,名词短语评论对象中的动词部分或从句评价对象中的谓语部分都可能使得其评价对象带有情感极性。(7)数字百分比表示程度更常见。商品评论中情感词的程度修饰词多为副词。金融评论中除了程度副词外,还常见用数字百分比来表示程度。(8)金融评论中句子的长度更长,句法成份相应地也更复杂。商品评论往往用短句完成商品各个属性的评价。而金融评论的描述相对更专业,多复合句和长句。细粒度的Web金融评论情感分析是一个庞大而复杂的工程,针对Web金融评论的上述特点,本文主要做了以下几个方面的研究:(1)全面分析了影响情感倾向性的9种句法成分及8种依存关系对。根据词性及其在句中充当的句法成分,全面分析了情感词在句中可能充当的9种句法成分;根据24种依存关系与评价对象、情感词的联系,找出了影响句子情感分析的8种依存关系。(2)情感评价单元的抽取及评价对象的扩展。情感评价单元记为评价对象,情感词,它是情感词及其所修饰评价对象的组合。情感评价单元的抽取是文本情感分析中的一个原子和重要的任务。本文充分利用金融评论中多动词情感词的特性,从浅层语义及依存句法分析的角度挖掘情感词所对应的评价对象并进行了相应的评价对象扩展。同时文中借助金融词典、财务指标、非财务指标等领域知识和上下文语义对虚指评价对象进行了判别和替换。缺省及隐含评价对象出现的原因不同,基于此找出可能出现隐式评价对象的三种情况下的三种对应隐式评价对象识别办法。(3)基于句法分析的情感极性单元抽取及奇异评价对象的识别。情感极性单元记为评价对象,N,情感词,N表示评价对象和情感词的否定修饰个数。评价对象的情感极性除了受情感词的原极性影响,还受否定词的修饰极性和奇异评价对象的动态极性影响。本文根据并列结构和转折句的语法知识,发现奇异评价对象。(4)基于句法分析的金融评论情感计算。评价对象的情感倾向性包括情感极性和情感强度,情感极性的影响因素有情感词,否定修饰和奇异评价对象;情感强度的影响因素有程度副词、否定词及它们与情感词的不同组合方式,分别构建了Web金融评论情感倾向性的不同计算模型。(5)以新浪财经的公司研究为数据源,在大规模的中文金融评论数据集上进行了详细的实验对比分析,实验结果表明了本文提出的评价对象-情感词对抽取、虚指评价对象的发现和替换、隐式评价对象的识别、评价对象的情感极性判定及金融评论的情感计算等方法的有效性。本文的创新工作主要体现在:(1)设计了语义角色标注与依存句法分析相结合的评价对象-情感词对抽取规则,解决了评价对象构成的复杂性问题。(2)提出了基于领域知识和上下文语义知识解决虚指评价对象和隐式评价对象的新思路。基于语义和领域知识对虚指评价对象进行了判别和替换,以明确其实际的指向和含义;基于特殊情感词搭配表、上下文搭配表及频繁搭配表,能有效识别出缺省和隐含评价对象。(3)提出了基于转折句语法分析的奇异评价对象判定方法,有效判定评价对象自身的情感极性。(4)构建了基于词性和依存句法分析的细粒度的Web金融评论情感倾向性计算模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 许璐蕾;;网络评论中情感词的获取及极性判断方法比较[J];电脑与电信;2011年01期
2 肖健;徐建;朱姝;万缨;许亮;;基于翻译和语义方法的情感词挖掘研究[J];计算机工程与应用;2011年32期
3 赵鹏;赵志伟;卓景文;;一种情感词语义加权的句子倾向性识别方法[J];计算机工程与应用;2011年35期
4 代大明;李寿山;李培峰;朱巧明;;基于情绪词与情感词协作学习的情感分类方法研究[J];计算机科学;2012年12期
5 李勇敢;周学广;孙艳;张焕国;;结合依存关联分析和规则统计分析的情感词库构建方法[J];武汉大学学报(理学版);2013年05期
6 彭庆喜;钱铁云;;基于量化情感的网店垃圾评论检测[J];山东大学学报(理学版);2013年11期
7 杜嘉忠;徐健;刘颖;;网络商品评论的特征–情感词本体构建与情感分析方法研究[J];现代图书情报技术;2014年05期
8 张清亮;徐健;;网络情感词自动识别方法研究[J];现代图书情报技术;2011年10期
9 黄俊;田生伟;禹龙;冯冠军;;基于维吾尔语情感词的句子情感分析[J];计算机工程;2012年09期
10 孙劲光;马志芳;孟祥福;;基于情感词属性和云模型的文本情感分类方法[J];计算机工程;2013年12期
11 柳位平;朱艳辉;栗春亮;向华政;文志强;;中文基础情感词词典构建方法研究[J];计算机应用;2009年10期
12 魏志生;吉阳生;罗春勇;陈家骏;;加入领域先验知识的产生式情感分类模型[J];计算机科学与探索;2011年12期
13 唐晓波;肖璐;;基于情感分析的评论挖掘模型研究[J];情报理论与实践;2013年07期
14 任远;巢文涵;周庆;李舟军;;基于话题自适应的中文微博情感分析[J];计算机科学;2013年11期
15 王勇;吕学强;姬连春;肖诗斌;;基于极性词典的中文微博客情感分类[J];计算机应用与软件;2014年01期
16 杨立公;樊孝忠;朱俭;;利用语义词典的情感词快速识别[J];计算机工程与设计;2013年08期
17 苏杰;缪裕青;刘少兵;吴孔玲;;基于语义倾向计算器的情感分析方法[J];桂林电子科技大学学报;2012年04期
18 张珊;于留宝;胡长军;;基于表情图片与情感词的中文微博情感分析[J];计算机科学;2012年S3期
19 周胜臣;瞿文婷;石英子;施询之;孙韵辰;;中文微博情感分析研究综述[J];计算机应用与软件;2013年03期
20 闻彬;;词语情感倾向性识别[J];咸宁学院学报;2010年06期
中国重要会议论文全文数据库 前5条
1 陈奇哲;刘全升;姚天昉;;汉语意见型语句主题与情感关系抽取的研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年
3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
5 王枞;涂序彦;刘嘉;;注意-情绪协调的个性化信息推荐模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
中国博士学位论文全文数据库 前9条
1 刘全超;面向中文微博的观点挖掘与倾向性分析研究[D];北京理工大学;2015年
2 江腾蛟;基于句法和语义挖掘的Web金融评论情感分析[D];江西财经大学;2015年
3 董喜双;基于免疫多词主体自治学习的情感分析研究[D];哈尔滨工业大学;2013年
4 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年
5 杨玉珍;基于Web评论信息的倾向性分析关键技术研究[D];山东师范大学;2014年
6 黄胜;Web评论文本的细粒度意见挖掘技术研究[D];北京理工大学;2014年
7 施寒潇;细粒度情感分析研究[D];苏州大学;2013年
8 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
9 李芳;面向中文Web评论的观点挖掘关键技术研究[D];华中师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 孙博;关于情感词的意义用法[D];辽宁大学;2012年
2 王银;中文微博情感分析方法研究[D];广东技术师范学院;2015年
3 崔连超;互联网评论文本情感分析研究[D];山东大学;2015年
4 杜雪峰;藏文句子倾向性分析研究[D];中央民族大学;2015年
5 孙建超;微博舆情挖掘技术的研究与应用[D];电子科技大学;2015年
6 张圣声;基于微博平台的产品评论情感分类研究[D];广东外语外贸大学;2015年
7 何天翔;基于情感词网的短文本情感分类方法研究[D];西南科技大学;2015年
8 丁星;基于文本倾向性分析技术的微博监控系统[D];江苏科技大学;2015年
9 李茜;博客意见检索关键问题研究[D];北京理工大学;2015年
10 李瑞静;汉语情感词模糊语义的量化分析及应用研究[D];北京理工大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978