收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向微博短文本的情感分析研究

刘楠  
【摘要】:随着互联网的日益普及,尤其是Web2.0的蓬勃发展,用户的参与度大大提高,互联网上产生了大量对诸如人物、事件、产品等具有情感倾向的评价性信息。通过对这些情感信息的分析,我们可以了解到大众对某个事件或者某件产品的看法。微博,作为一种新的社交媒体已被大众广泛接收,其发展和增长的速度超出大家的预料,每日交流的数据量呈爆炸式增长。这为自然语言处理提供了新的研究领域,并提供了大量新形式的评论文本,传统的文本分析大多着眼于提取新闻文献等格式规范的文本的核心内容及主题上,但对微博这种长度较短,情感强烈,话题单一的短文本,需要通过新的技术手段去了解其关注的内容和倾向。本文旨在通过改进现有的情感分析方法,使其适用于微博短文本这种新的文本形式。 本文研究了微博短文本情感分析的三个关键问题。包括主客观分类方法的研究、情感倾向性分析的研究、多类别情感分类的研究。主要的研究内容及创新点概括如下: 1.提出一种综合多元词汇特征和多元词性特征对微博短文本主客观分类的方法。该方法通过多分类器组合和集成学习相结合,构建Vote-AdaBoost组合分类方法,通过迭代式更新,优选合适的分类器作为投票组合,能够有效提升对微博短文本主客观识别的准确率。在该方法的研究过程中,首先通过分析适合于微博短文本主客观分类的情感特征,将情感词典与多元词汇特征、多元词性特征和微博上下文特征结合,构建主客观分类时可用的主观特征。分别选用基于词典的主客观判别方法和基于统计的主客观判别方法。针对现有单一分类器方法对微博短文本的主客观判别效果不佳的现状,尝试多分类器组合和集成学习相结合的方法,分别探讨采用权重投票方式的多分类器组合方法和基于AdaBoost集成学习方法的单一分类器改进方法。通过构建Vote-AdaBoost组合分类方法,优选合适的分类器作为投票组合,通过集成学习方式提升投票组合中的较差部分,最终获得对微博主客观分类的有效的分类方法。 2.提出一种基于情感要素的微博短文本情感极性判别方法,该方法中将包含情感信息的词汇和词汇组合等特征作为统一的情感要素进行处理。通过改进现有使用知网相似度的情感分析方法,提出基于最短路径关键点的知网基准词获取方法,通过优化基准词的获取方式,使情感要素的情感值能够被正确判别,提高使用情感要素判别微博短文本情感极性的准确率。在该方法研究过程中,首先根据微博短文本的特点提出情感要素的概念,将具有独立词性的情感词汇和包含情感信息的最小词汇组合作为统一的情感要素特征项,根据情感词典、知网情感相似度、统计方法对情感要素进行特征抽取,构建统一的情感极性判别方法。然后,通过改进知网情感相似度方法,来提高对情感要素特征抽取和情感值计算的准确性。针对现有研究中知网情感相似度计算缺乏合理有效的情感基准词获取方法,提出基于最短路径关键点的知网基准词获取方法。通过构建备选基准词相似度关系图,以改进的Floyd算法来抽取有效的情感基准词。通过选择与其它情感词关系紧密,相似度高的词汇为基准词,提高对情感词的情感极性判别的准确性。之后,分别采用词频统计方法和机器学习方法,实现利用情感要素来判别微博短文本的情感极性。 3.提出一种面向多类别情感的细粒度情感分析方法,针对现有特征抽取方法多仅考虑二元分类的限制,通过结合方差统计方法改进传统TF-IDF方法,使其在多类别的文本中具有有效性。形成一种适合多类别情感特征抽取的多分类特征抽取的计算方法。在使用过程中采用先极性判断,后细粒度情感判断的处理方法,构建细粒度情感分析与判断流程,并将其应用于微博短文本的细粒度情感判断中。通过和传统特征抽取方法对比,证明其具有更准确的效果。在该方法研究过程中,首先提出一种细粒度特征抽取方法,设计面向多类别的TF-IDF权重计算方法。由于TF-IDF方法本身不包含分类功能,将其与统计学上的方差相结合,把偏移量的大小作为特征项在多分类中的贡献度来考虑,从而提取出在多类别中偏差度大、词频较高且集中的特征词作为多类别分类的特征项。分别采用TF和TF-IDF方法进行情感倾向判断,通过归一化实现特征项情感值的描述。然后在该方法的基础上,构建了细粒度情感分析与判断流程,选择大连理工大学提供的情感本体库作为细粒度情感划分的依据。根据我们设计的权重计算方法和情感判断流程,实现对微博短文本中多类情感的判别方法。经实验证明,该方法与现有的特征抽取方法相比,能够快速有效的判别特征项在多类别中的权重。通过参与多类别情感分类的评测任务,进一步验证了本文中细粒度情感分析方法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前18条
1 柳锋;朱庆生;杨世泉;张敏;;一种改进的级联AdaBoost分类器[J];计算机应用;2007年12期
2 刘艺;龚卫国;李伟红;;双层结构Adaboost健壮分类器用于人眼精确定位[J];计算机应用;2008年03期
3 郝维来;郑同山;;基于AdaBoost的集成分类器在电信增值业务中的应用[J];计算机技术与发展;2011年03期
4 张君昌;李倩;贾靖;;基于分类器相关性的Adaboost人脸检测算法[J];计算机应用;2009年12期
5 姜季春;马丹;;基于AdaBoost改进的多分类器动态集成算法[J];计算机工程与设计;2015年11期
6 程佳兵;邹湘军;林桂潮;李锦慧;陈明猷;黄矿裕;;基于AdaBoost算法的级联分类器对绿色荔枝的快速检测方法[J];自动化与信息工程;2018年05期
7 唐杰;文贡坚;;基于改进AdaBoost分类器的一种目标识别算法[J];无线互联科技;2016年20期
8 金鸣;邱锡鹏;吴立德;;改进的AdaBoost分类器在视频中的体育场景检测[J];计算机工程;2006年12期
9 徐丽平;李佳;房林;;adaboost分类器的构建及其对肝癌非编码区有害突变的鉴定[J];上海交通大学学报(医学版);2015年06期
10 全昌勤;何婷婷;姬东鸿;余绍文;;基于多分类器决策的词义消歧方法[J];计算机研究与发展;2006年05期
11 汪仕才;冯桑;呙腾;;基于AdaBoost算法的人脸人眼分类器的设计与实现[J];现代计算机(专业版);2015年29期
12 毕萍;;基于Adaboost层叠式分类器的人脸检测算法仿真[J];西安邮电学院学报;2008年05期
13 田一明;王喜太;杨鹏;耿艳利;;基于加速度时域特征和Adaboost-SVM级联分类器的跌倒检测研究[J];中南民族大学学报(自然科学版);2018年01期
14 周维柏;李蓉;;基于改进的AdaBoost和支持向量机的行人检测[J];昆明理工大学学报(理工版);2010年06期
15 汪成龙;黄余凤;;基于Cascade Adaboost分类器的马铃薯快速定位方法[J];湖南农业科学;2018年02期
16 陈伟;张金华;李蔡媛;廖壬;;基于Matlab平台人脸识别仿真过程的探究[J];信息通信;2013年05期
17 陈金坦;康恒政;杨燕;周伟雄;;一种用于不平衡数据的分类算法[J];山东大学学报(工学版);2011年02期
18 蒋焰;丁晓青;;基于多步校正的改进AdaBoost算法[J];清华大学学报(自然科学版);2008年10期
中国重要会议论文全文数据库 前10条
1 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 张超;苗振江;;基于AdaBoost的面部信息感知[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
3 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
5 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 徐翼龙;李文法;周纯洁;;基于深度学习的自然语言处理综述[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
9 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年
10 唐晓丹;苗振江;;基于AdaBoost和粒子滤波的目标跟踪[A];第十四届全国图象图形学学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
4 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
5 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
6 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
7 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
8 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
9 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
10 魏伟;基于条件共现度的文本表示与特征抽取方法研究[D];大连理工大学;2018年
中国硕士学位论文全文数据库 前10条
1 杨宁;人脸检测识别方法研究与系统设计[D];东北大学;2012年
2 沈晨;基于特征子空间的高精度图像分类器实现[D];吉林大学;2009年
3 王俊霞;基于产品评论的细粒度情感分析研究[D];重庆邮电大学;2017年
4 冯峤;快速的多姿态人脸检测系统的研究[D];华中科技大学;2012年
5 刘心宇;AdaBoost和主动学习方法在邮件分类中的应用研究[D];哈尔滨理工大学;2016年
6 阳崇云;基于级联Adaboost分类器的多视角人脸检测[D];华中科技大学;2016年
7 崔小静;基于肤色分割与AdaBoost分类器的多姿态人脸检测[D];太原理工大学;2012年
8 张元;一种基于AdaBoost的组合分类算法研究[D];四川师范大学;2015年
9 卢婷;基于AdaBoost的分类器学习算法比较研究[D];华东理工大学;2014年
10 苏帅;基于多视角分类器融合的车辆检测研究[D];北京交通大学;2017年
中国重要报纸全文数据库 前10条
1 王培 美国天普大学计算机与信息科学系;机器翻译会迫使翻译们全失业吗?[N];北京科技报;2016年
2 本报记者 刘峣;人工智能创造新闻新玩法[N];人民日报海外版;2016年
3 北京商报记者 姜红;人工智能:市场前夜的秀场[N];北京商报;2017年
4 归欣;无需为“二代狗”惊慌失措[N];河南日报;2017年
5 本报记者 张盖伦;小心,聊天机器人也会被“教坏”[N];科技日报;2017年
6 本报记者 马爱平;机器人能成为“闺蜜”吗?[N];科技日报;2017年
7 陈宗周;重建巴别塔[N];电脑报;2017年
8 记者 李思;企业纷纷抢先机[N];上海金融报;2017年
9 赛迪顾问人工智能行业分析师 向阳;2017年人工智能产业发展分析与预测[N];中国信息化周报;2017年
10 赛迪顾问人工智能行业分析师 向阳;人工智能未来三年将迎新机遇点[N];中国计算机报;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978