收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于半监督递归自编码的情感分类研究

王轶霞  
【摘要】:文本情感分析在数据挖掘领域有着十分重要的地位,文本情感分类又是文本情感分析中的一项重要研究内容。文本情感分类是指利用自然语言处理方式,对文本的主观情感倾向性进行分析,包括抽取文本中与情感倾向性判断有关的各个要素,判断文本的情感倾向性等。文本的情感倾向性可以分为正面、负面、中立等不同情况。针对互联网上的海量评论文本,如何对其进行快速有效的分析与利用引起了越来越多学者的重视。目前关于情感分类问题的研究,主要分为基于情感词典的情感分类和基于机器学习的情感分类两大类,且都取得了不错的成果。但由于基于情感词典的分类方法中情感词典的好坏将直接影响最终分类的准确率,而情感词典的构建又完全依赖于人的主观经验,因而很多学者着力于构建更好更完整的情感词典。在基于传统机器学习的方法中,建模的过程中通常使用较简单的函数,计算也往往使用诸如统计等一些简单的运算方法,所以通常被认为是浅层学习。本文引入基于深层学习的半监督递归自编码(RAE, Recursive Auto Encoders)方法来解决中文文本的情感分类问题,它通过学习非线性的深层网络结构,利用分布式向量来表达文本的特征,从而弥补了浅层学习在表达能力和泛化能力方面的约束。为了证明半监督RAE方法的有效性,文中首先建立传统的支持向量机(SVM, Support Vector Machine)情感分类模型进行文本情感分类,得到的最优情感分类结果是87%。然后利用基于深层学习的半监督RAE方法,得到的最优文本情感分类结果为88.3%,在文本预处理、特征选择等处理过程与基于传统SVM方法完全相同的情况下,准确率提高了1.3个百分点。


知网文化
【相似文献】
中国期刊全文数据库 前1条
1 王晓武;全国县情资料文献检索系统[J];中文信息;1997年02期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
2 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
6 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
7 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
8 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
2 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
3 马渊;短文本情感分析技术研究[D];重庆大学;2011年
4 张超;文本OLAP关键技术研究[D];山东大学;2012年
5 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
6 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年
7 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
8 梁鹏鹏;概率主题模型及其在关联文本分类中的应用研究[D];郑州大学;2011年
9 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
10 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年
中国重要报纸全文数据库 前2条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
2 山东 黄家贞;网页保存工具——网页快拷[N];电脑报;2001年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978