收藏本站
《哈尔滨工程大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

情感组块与机器学习相结合的文本倾向性分析

袁超越  
【摘要】:随着虚拟社区这一新网络团体形式的出现,各种论坛应运而生,这些论坛上充斥着人们对生活及周边事物的评价和看法。在这些意见和和评论中,包含着说话人的主观意见,表达了评论人的情感倾向。识别出其中带有的情感倾向性,可以帮助我们更好的理解评论人的态度和立场,为面向商家的产品反馈,面向政府管理的信息过滤、民意分析等提供信息技术的支持。因此,文本的情感倾向性分析成为解决这一问题的关键技术,具有广泛的应用前景。 采用机器自动处理的手段对网络评论进行情感分析判别,是当前互联网智能信息处理的一个研究热点,具有较大的实用价值。但由于网络评论文本具有的特殊性,原有的文本情感分类方法不能获得较为理想的效果。其主要原因在于:(1)网络评论文本形式不规范,包含大量网络用语,不能被正确分词;(2)评论中包含对客观事实的陈述,这些信息与情感分类无关,会对最终的分类结果造成影响;(3)单纯地提取评论中的主观句,会丢失掉不以主观形式出现但存在褒贬倾向性的信息。因此,如何有效地提取网络评论文本中的情感信息,是提高情感分类效果的关键。针对以上存在的问题,本文提出了一种将情感组块与机器学习相结合的方法,对网络评论文本的情感倾向性分析问题进行了深入的研究,并将SVM算法应用到情感倾向性分析系统中,在不同规模的军事评论样本集下进行了实验。主要的研究工作有: (1)针对网络评论中存在大量的形式不规范的网络用语,导致原分词软件无法识别的问题,建立了网络用语词典,对评论文档中出现的如拼音、缩写等不规范词语进行有效还原,从而保证了分词的准确性,也使得一些包含作者情感的信息不被丢失,进而提高分类的正确率; (2)根据语料特征,建立了领域情感词典,实现对原评论中的非情感信息进行有效过滤,降低了无关信息对分类效果的影响; (3)提出情感组块的概念,将那些具有褒贬倾向性的表达形式定义并标记为情感组块,作为情感特征提取,从而保证了情感信息能得到有效保留; (4)将情感组块与支持向量机相结合,在不同规模的语料上先后进行多组实验,并将实验结果与用KNN分类器进行分类的结果相比较。实验证明,在较大规模的训练样本集下,SVM分类器的分类效果优于KNN分类器。这表明了使用本方法可以有效提高军事评论情感分类的正确率。 (5)设计并实现了一个针对于军事评论领域的网络文本情感倾向性分析系统模型。使用这个系统模型可以判断军事评论是正面的还是反面的,查看分类结果,并对分类结果进行性能评估。该系统通过了测试,具有一定的正确率和可行性。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1;TP181

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
2 王跃龙;姬东鸿;;汉语树库综述[J];当代语言学;2009年01期
3 孙荣宗;;一种快速KNN文本分类算法[J];电脑知识与技术;2010年01期
4 王素格;杨安娜;李德玉;魏英杰;李伟;张武;;基于支持向量机的文本倾向性分类研究[J];中北大学学报(自然科学版);2008年05期
5 张紫琼;叶强;李一军;;互联网商品评论情感分析研究综述[J];管理科学学报;2010年06期
6 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
7 徐鹏;刘琼;林森;;基于支持向量机的Internet流量分类研究[J];计算机研究与发展;2009年03期
8 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
9 柴玉梅;熊德兰;昝红英;;Web文本褒贬倾向性分类研究[J];计算机工程;2006年17期
10 曹丽娟;王小明;;训练支持向量机的并行序列最小优化方法[J];计算机工程;2007年18期
中国硕士学位论文全文数据库 前2条
1 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
2 刘依璐;基于机器学习的中文文本分类方法研究[D];西安电子科技大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
2 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
3 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
4 秦艳琴;朱婧婷;;网络图书评论分析与编辑智慧[J];中国编辑;2011年02期
5 方辉;王倩;;支持向量机的算法研究[J];长春师范学院学报;2007年06期
6 杨晓伟;欧阳柏平;余舒;吴春国;梁艳春;;自适应迭代算法支持向量集的特性研究[J];吉林大学学报(信息科学版);2006年02期
7 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
8 肖志刚;徐宏;杨素林;王岩;孙玉梅;;基于平衡策略的支持向量机在电力系统中期负荷预测的应用[J];河北农业大学学报;2006年05期
9 熊小龙;王洁;牛天林;杜燕波;;用于故障诊断的新型多专家系统[J];电光与控制;2009年07期
10 邱婧;夏靖波;柏骏;;基于SVM决策树的网络流量分类[J];电光与控制;2012年06期
中国重要会议论文全文数据库 前10条
1 李艳娇;杨尔弘;;树库中的歧义组合考察[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 宋艳雪;张绍武;林鸿飞;;基于语境歧义词的句子情感倾向性分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 覃张华;王景中;;基于语境框架的倾向性文本过滤算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
5 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
6 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
7 李优;;支持向量机在组块识别中的应用[A];第八届中国青年运筹信息管理学者大会论文集[C];2006年
8 杜晓东;李岐强;;基于数据几何特征的SVM改进方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
9 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
10 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
3 王娟;大规模网络安全态势感知关键技术研究[D];电子科技大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
6 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
7 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
8 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
9 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年
10 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 张磊;基于支持向量机的反垃圾电话技术研究[D];哈尔滨工程大学;2010年
7 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
8 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
9 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
10 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期
5 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
6 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
9 王晓晔,王正欧;K-最近邻分类技术的改进算法[J];电子与信息学报;2005年03期
10 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
中国博士学位论文全文数据库 前1条
1 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
中国硕士学位论文全文数据库 前6条
1 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
4 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
5 王莹莹;汉语组块识别的研究[D];大连理工大学;2006年
6 于瑞萍;中文文本分类相关算法的研究与实现[D];西北大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 李素建,刘群,白硕;统计和规则相结合的汉语组块分析[J];计算机研究与发展;2002年04期
2 吕建;徐家福;;软件自动化的智能化途径[J];科学通报;1993年02期
3 胡俊翘,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期
4 阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期
5 高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期
6 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期
7 胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期
8 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
9 鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期
10 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
中国重要会议论文全文数据库 前10条
1 范模;李达;马巍巍;易丛;白雪平;;南海超大型组块浮托的总体设计与关键技术[A];第十三届中国科协年会第13分会场-海洋工程装备发展论坛论文集[C];2011年
2 刘世岳;李珩;张俐;姚天顺;;Co-training机器学习方法在中文组块识别中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 左胜;;秦皇岛32-6油田井口平台组块吊装工艺[A];2003年度海洋工程学术会议论文集[C];2003年
4 刘超;刘全刚;郭宁;李挺;;海洋平台建造过程中的牵引滑移研究[A];第十五届中国海洋(岸)工程学术讨论会论文集(下)[C];2011年
5 李素建;刘群;;汉语组块的定义和获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 任登君;李珩;张俐;姚天顺;;基于词对齐的双语组块对齐[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 刘明爽;胆雯;;渤中34-1N WHPC组块称重结构物设计及有限元分析[A];第十五届中国海洋(岸)工程学术讨论会论文集(下)[C];2011年
8 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
9 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 江荻;;现代藏语的句法组块与形式标记[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 ;蓝疆号完成海上吊装[N];中国证券报;2003年
2 记者 齐芳;“顿悟”是怎么发生的[N];光明日报;2011年
3 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
4 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
5 记者 梁利华;北京应用透水树脂组块进行树池铺装[N];中国环境报;2004年
6 记者 何边;网络化激活人工智能[N];计算机世界;2001年
7 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
8 本报记者 殷元元;城在青山绿水间 人在鸟语花香中[N];黄山日报;2007年
9 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
10 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
9 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 袁超越;情感组块与机器学习相结合的文本倾向性分析[D];哈尔滨工程大学;2011年
2 许建丽;不同知识经验水平对中文组块切分的影响[D];闽南师范大学;2013年
3 宋宏珂;工作记忆个体差异和记忆负荷对组块加工的影响[D];西南大学;2010年
4 王远芝;基于读音的高中英文单词字母块组块记忆的实验研究[D];闽南师范大学;2013年
5 吴福林;论组块在高中英语词汇教学中的运用[D];四川师范大学;2012年
6 魏媛;一种应用于文本信息隐藏的组块分析算法的设计与实现[D];西北大学;2012年
7 俞森林;论翻译的层次[D];重庆大学;2003年
8 张宁;组块构建记忆策略训练提高初中学生英语词汇学习质量的应用研究[D];山东师范大学;2010年
9 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
10 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026