收藏本站
《苏州大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于半监督集成学习的情感分类方法研究

高伟  
【摘要】:随着WWW的迅速发展,网络上出现了越来越多包含着巨大利用价值的评价文本,如何自动处理这些主观文本显得愈发重要。情感分析正是在这样的背景下产生并取得迅猛发展的一个研究方向。其中,文本情感分类是情感分析研究中最广泛的一个基本任务。情感分类中,现有的研究主要致力于提升监督学习的效果。然而,监督学习往往需要大量的标注样本,而人工标注这些样本非常耗时耗力。因此,在少量标注样本的基础上,充分利用大量未标注样本的半监督情感分类方法受到越来越广泛的关注。其中,半监督集成学习方法上的研究还十分缺乏。本文主要针对情感分类中的半监督集成学习方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出一种基于随机特征子空间自训练的半监督情感分类方法。核心思想是在标注样本基础上,利用随机特征子空间训练多个子分类器,并采用最大置信度的集成方式,选择置信度高的子分类器做分类决策。该方法能够尽量避免噪音特征为半监督情感分类带来的不良影响。实验结果表明,该方法相比于传统的自训练方法及基于随机特征子空间的协同训练方法,获得了更好的分类性能。其次,本文提出了一种基于标签一致性融合的半监督情感分类方法。核心思想是,将多个半监督学习方法标注一致的未标注样本自动标注,并更新标注样本集,过滤掉标注不一致的未标注样本,从而保证了标注集合的质量,降低误标注给半监督学习带来的负面影响。实验结果表明,基于标签一致性融合的半监督情感分类方法有效地降低了未标注样本的误标注率,在分类效果上远远优于单个半监督学习方法。最后,本文提出了一种基于元分类器及样本过滤的半监督情感分类方法。相比于标签一致性融合的半监督情感分类方法,该方法具有更广泛的适应性,在多个半监督学习方法进行集成学习时,同样能够获得非常好的效果。核心思想是训练一层元分类器,利用元分类器对未标注样本进行标注,并过滤掉分类置信度低的未标注样本。实验结果验证了该集成学习方式的有效性,在多个半监督学习方法进行集成学习时,该方法获得了最好的分类效果。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
2 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
3 苏艳;居胜峰;王中卿;李寿山;周国栋;;基于随机特征子空间的半监督情感分类方法研究[J];中文信息学报;2012年04期
【共引文献】
中国期刊全文数据库 前10条
1 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
2 庞娜;;增量学习算法对文本情感识别模型的改进[J];电脑开发与应用;2011年07期
3 梁坤;古丽拉·阿东别克;;基于SVM的中文新闻评论的情感自动分类研究[J];电脑知识与技术;2009年13期
4 张彬;杨志晓;;基于基准词的文本情感倾向性研究[J];电脑知识与技术;2011年08期
5 李艺红;蒋秀凤;;中文句子倾向性分析[J];福州大学学报(自然科学版);2010年04期
6 廖祥文;张小琴;;基于句型结构的领域倾向词表构建[J];福州大学学报(自然科学版);2011年04期
7 李迎凯;徐小良;;一种改进的基于知网的句子相似度计算方法[J];电子科技;2012年07期
8 罗安;王勇;张福浩;刘纪平;;基于角色标注的中文POI名称语义分类方法[J];测绘通报;2012年S1期
9 薛云霞;李寿山;王中卿;;基于社会关系网络的半监督情感分类[J];北京大学学报(自然科学版);2014年01期
10 邹明;;基于情感分析的恶意发帖检测方法研究[J];电脑知识与技术;2014年07期
中国重要会议论文全文数据库 前10条
1 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
2 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
3 ;Comparing Chinese reviews based on Fuzzy PROMETHEE: A new approach to sentiment analysis[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
4 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
6 姚天昉;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 王克;张春良;高晓兴;朱靖波;;基于三类训练两类判别框架的主客观性句子识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 杨峰;本体映射关键技术研究[D];吉林大学;2011年
6 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
7 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
8 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
9 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
10 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
4 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
5 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
6 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
7 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
8 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
9 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
10 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前4条
1 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
2 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
3 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
4 刘鸿宇;赵妍妍;秦兵;刘挺;;评价对象抽取及其倾向性分析[J];中文信息学报;2010年01期
【相似文献】
中国期刊全文数据库 前10条
1 袁汉宁;;双层多示例集成学习[J];武汉理工大学学报(信息与管理工程版);2011年05期
2 俞扬;周志华;;集成学习中完全随机学习策略研究[J];计算机工程;2006年17期
3 张沧生;崔丽娟;杨刚;倪志宏;;集成学习算法的比较研究[J];河北大学学报(自然科学版);2007年05期
4 陈凯;;基于聚类技术的集成学习差异性研究[J];南京工业职业技术学院学报;2008年04期
5 李凯;崔丽娟;;集成学习算法的差异性及性能比较[J];计算机工程;2008年06期
6 潘志松;燕继坤;;少数类的集成学习[J];南京航空航天大学学报;2009年04期
7 陈凯;马景义;;一种选择性SER-BagBoosting Trees集成学习研究[J];计算机科学;2009年09期
8 陈全;赵文辉;李洁;江雨燕;;选择性集成学习算法的研究[J];计算机技术与发展;2010年02期
9 张燕平;曹振田;赵姝;郑尧军;杜玲;窦蓉蓉;;一种新的决策树选择性集成学习方法[J];计算机工程与应用;2010年17期
10 饶峰;;核机器集成学习算法的误差分析[J];重庆文理学院学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
3 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
4 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
5 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
6 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
7 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
8 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
9 程丽丽;支持向量机集成学习算法研究[D];哈尔滨工程大学;2009年
10 林智勇;基于核方法的不平衡数据学习[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
3 张妤;支持向量机集成学习方法研究[D];山西大学;2008年
4 李涛;基于条件互信息的集成学习的研究与应用[D];中国海洋大学;2009年
5 杨长盛;基于成对差异性度量的选择性集成学习方法研究[D];安徽大学;2010年
6 曹振田;基于Q统计量的选择性集成学习研究[D];安徽大学;2010年
7 王丽丽;集成学习算法研究[D];广西大学;2006年
8 马冉冉;集成学习算法研究[D];山东科技大学;2010年
9 张新东;集成学习及其应用研究[D];石家庄经济学院;2010年
10 吴科主;基于多任务的多层次选择性集成学习的研究[D];安徽工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026