收藏本站
《东北财经大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向网络舆情的中文评论文本情感倾向分析研究

罗亚平  
【摘要】:随着互联网技术的迅速发展,越来越多的网民通过互联网来表达情绪、意见和看法,推动着网络舆情的发展。尤其是Web 2.0技术的发展,博客、论坛、新闻留言版等成为网络舆情的主要载体。近年来,各级地方政府越来越重视网络舆情的监督与控制。网络舆情具有突发性、直接性、匿名性等特点,对于一些负面网络舆情如果引导不当,会对社会的和谐与健康发展产生不利影响。因此,政府及相关管理者需要对网络舆情信息进行挖掘和分析,这对政府把握舆情发展动态、提高网络舆情监控能力有着重要的意义。 网络舆情的倾向分析涉及到文本的情感倾向分析技术。文本的情感倾向分析的主要任务是对文本进行情感分类,即判断文本是正面文本还是负面文本。文本的情感倾向分析是目前自然语言处理领域一个非常热门的研究课题,广泛应用于文本过滤、产品评论挖掘和舆情倾向分析等领域。本文主要是面向网络舆情进行文本的情感倾向分析研究。 本文首先通过查阅文献,总结了现有文本倾向分析的基本方法,然后研究了文本分类的关键技术,包括分词、停用词处理、文本特征选择和文本表示等,对文本分类的整个流程有了清晰的认识。文本的情感分类不同于一般的文本分类。一般的文本分类是基于主题分类,例如,将文本分为经济类、政治类、军事类和娱乐类等,与主题相关的词汇对文本的主题分类贡献较大。而对于文本的情感分类,具有情感倾向的词汇可能会对情感分类作用更大。本文在前人所做工作的基础上进行研究,建立了文本情感分类模型,主要包括两大部分,一是情感词库的建立,二是利用支持向量机进行文本情感分类。 关于情感词库的建立,主要包括三个工作:一是主观文本提取,二是情感词的自动标注,三是情感词的倾向性计算。首先要对文本进行主客观分类,提取主观性文本,去除具有干扰性的客观文本,为下一步情感词的提取工作打下基础。针对主客观文本分类,本文在他人研究的基础上,利用N-POS模型实现主观句的提取。本文对原方法进行了改进,将句子的长度对主观句权重的影响考虑进去,并结合实际数据证明了改进的效果。接下来,本文利用条件随机场模型自动标注情感词,减轻了人工工作量。最后,利用基于知网的词汇倾向性方法判断情感词的倾向性,并计算情感词的倾向值,从而构建情感词库。 在情感词库的基础上,选择情感词作为文本特征,利用TF-IDF方法进行权重计算,然后利用支持向量机方法实现文本情感分类。由于传统的TF-IDF方法没有考虑词汇的情感倾向,本文对TF-IDF方法进行了改进,将TF-IDF方法和词汇的倾向值结合起来作为权重计算方法。然后利用LIBSVM平台构造分类器,将利用原TF-IDF方法和改进后的TF-IDF方法得到的结果进行比较,改进后的TF-IDF权重计算方法使分类效果有所提高。因此,在进行文本的情感分类时,应该将情感词的情感倾向值考虑进去。 由于自然语言处理的复杂性和个人能力有限,本文还存在一些不足之处需要以后进一步研究探讨。在情感词的自动标注上,应该寻求更加有效的方法。建立的情感词库还需要完善和扩展,情感词的修饰极性需要进一步研究。
【学位授予单位】:东北财经大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 张南;刘军杰;刘志军;;基于支持向量机的模式识别方法研究[J];舰船科学技术;2006年05期
2 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
3 樊娜;蔡皖东;赵煜;李慧贤;;中文文本情感主题句分析与提取研究[J];计算机应用;2009年04期
4 关毅,张凯,付国宏;基于统计的计算语言模型[J];计算机应用研究;1999年06期
5 党蕾;张蕾;;一种基于知网的中文句子情感倾向判别方法[J];计算机应用研究;2010年04期
6 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
7 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
8 王根;赵军;;基于多重冗余标记CRFs的句子情感分析研究[J];中文信息学报;2007年05期
9 黄晓斌;赵超;;文本挖掘在网络舆情信息分析中的应用[J];情报科学;2009年01期
10 许鑫;章成志;李雯静;;国内网络舆情研究的回顾与展望[J];情报理论与实践;2009年03期
中国硕士学位论文全文数据库 前10条
1 吴艳玲;基于SVM的网页分类器的研究[D];吉林大学;2004年
2 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
3 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
4 张华军;支持向量机在FSK解码中的应用研究[D];武汉理工大学;2006年
5 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
6 吴巧敏;基于支持向量机的文本分类算法研究[D];湖南大学;2007年
7 庄新妍;基于SVM的中文文本分类系统的研究与实现[D];吉林大学;2007年
8 王琪;基于SVM的Web文本分类研究[D];上海海事大学;2007年
9 邸锦;基于支持向量机的文本分类问题的研究[D];北京交通大学;2008年
10 熊浩勇;基于SVM的中文文本分类算法研究与实现[D];武汉理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期
9 王一丁;杨虹;;基于多目标线性规划的人脸识别方法[J];北方工业大学学报;2009年01期
10 赵莉;;基于OCR的拼写校正系统[J];兵工自动化;2010年09期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
7 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
8 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
9 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
10 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
4 秦璐;网络舆情引导方法研究[D];广西师范学院;2010年
5 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
6 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
7 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
8 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
9 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
10 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 李侃,高春晓,刘玉树;基于SVM的空间数据库的层次聚类分析[J];北京理工大学学报;2002年04期
2 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
3 方辉;王倩;;支持向量机的算法研究[J];长春师范学院学报;2007年06期
4 陈霞,朱勤专,丁锦滔;FSK信号的非相干数字解调技术[J];电讯技术;2005年02期
5 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
6 朱靖波,陈文亮;基于领域知识的文本分类[J];东北大学学报;2005年08期
7 桑华;卿涛;;浅谈高校舆情危机预警[J];当代经济(下半月);2008年08期
8 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
9 张莉,周伟达,焦李成;尺度核函数支撑矢量机[J];电子学报;2002年04期
10 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
中国重要会议论文全文数据库 前1条
1 刘桐菊;于浩;杨沐昀;;基于TFIDF的专业领域词汇获取的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前6条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
5 张国云;支持向量机算法及其应用研究[D];湖南大学;2006年
6 曾志强;支持向量分类机的训练与简化算法研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
2 杨昂;文本分类算法研究[D];湖南大学;2002年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
5 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
6 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
7 毛嘉莉;聚类K-means算法及并行化研究[D];重庆大学;2003年
8 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
9 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
10 张滨;中文文档分类技术研究[D];武汉大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 高翔,张利,吴国威;基于边界码的非Manhatan格式下的文本图象的自动区域分割方法[J];中国图象图形学报;1997年12期
2 顾克江;;用C51编程实现流量计界面的汉字显示[J];石油工业计算机应用;2009年03期
3 宋彦;Java语言入门——第八讲 applet程序设计方法(二)[J];电脑知识与技术;1998年08期
4 张佑生,彭青松,汪荣贵,偶春生;基于子图像VCH的文本检测与定位方法研究[J];武汉大学学报(信息科学版);2003年03期
5 汪斌,胡福乔;基于图理论聚类的彩色图像文本提取[J];微电子学与计算机;2003年08期
6 ;如何修补损坏的系统文件[J];统计与咨询;2003年01期
7 谢沙利;章百里;;汉字文本编辑系统[J];微电子学与计算机;1981年05期
8 郭振海;“一致沟通”——即时沟通你我他[J];电脑知识与技术;2001年08期
9 司徒锡康;关于LCD控制器T6963C应用的几个问题[J];电子技术;2000年01期
10 曾立人;;面向摄影师的Photoshop CS2新功能详解(2) 全新的图片浏览和管理工具:Bridge[J];照相机;2007年01期
中国重要会议论文全文数据库 前10条
1 郝长春;;用C51编程实现流量计界面的汉字显示[A];江苏省计量测试学会2005年论文集[C];2005年
2 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
3 刘为民;;网“客”传播和公安“舆情”[A];现代化的机遇与挑战——第八期中国现代化研究论坛论文集[C];2010年
4 郝文江;马晓明;武捷;;网络舆情现状分析与引导机制研究[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 耿骞;刘颖;;网络舆情的形成、传播及监测方法[A];科学发展:文化软实力与民族复兴——纪念中华人民共和国成立60周年论文集(下卷)[C];2009年
6 何顺兰;王兴起;胡宏宇;姜明;;多媒体舆情分析系统设计与研究[A];浙江省电子学会2010学术年会论文集[C];2010年
7 杨江;侯敏;;语言文字舆情论略[A];中国传媒大学第四届全国新闻学与传播学博士生学术研讨会论文集[C];2010年
8 任铭;陈俊鑫;;我国网络舆情及管理策略研究[A];2011年全国通信安全学术会议论文集[C];2011年
9 孙德超;张馨睿;贺晶晶;;地方政府网络舆情应对能力的提升[A];吉林省行政管理学会“政府管理创新与转变经济发展方式”学术年会论文集(《吉林政报》2010·专刊2)[C];2011年
10 朱晓东;杨国俊;;聚类分析在网络舆情监测中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国重要报纸全文数据库 前10条
1 记者 许兵 通讯员 马勇;灌云科学处置举报类网络舆情[N];连云港日报;2010年
2 孙愫、媛媛;中宣部舆情局领导来我市参观考察[N];唐山劳动日报;2010年
3 记者 吴汉松;提升引导网络舆情能力[N];石狮日报;2010年
4 国防科技大学 刘朝;增强领导干部科学应对网络舆情的能力[N];长沙晚报;2010年
5 记者 姜澎;提前预警比事后“灭火”更重要[N];文汇报;2010年
6 戴建明 林婧;加强新形势下舆情信息工作的几点思考[N];三明日报;2010年
7 山西省委党校信息网络教研部 吕淑芳;地方政府如何应对网络舆情[N];山西科技报;2010年
8 镇原县政法委 慕瑶;如何妥善处置网络舆情之我见[N];陇东报;2010年
9 临县宣传部 李玉峰;浅谈舆情信息写作[N];吕梁日报;2011年
10 记者 郭青剑 金涛;全国文联文艺舆情信息工作会在东莞召开[N];中国艺术报;2011年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
3 程红蓉;垃圾图像特征提取与选择研究[D];电子科技大学;2011年
4 王根生;面向群体极化的网络舆情演化研究[D];江西财经大学;2011年
5 潘新;基于复杂网络的舆情传播模型研究[D];大连理工大学;2010年
6 丛键;视频流分层传输与流中文本识别[D];电子科技大学;2001年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 黄同成;基于小波神经网络理论的VOCR与HOCR技术研究[D];上海大学;2008年
9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
10 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
2 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
3 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
4 曾莱蓓;基于虚词变换的文本隐藏信息检测方法研究[D];湖南大学;2010年
5 陈艳;基于FPGA和DSP的文本图像采集及定位研究[D];辽宁科技大学;2012年
6 张添一;基于文本相似度计算的主观题自动阅卷技术研究[D];东北师范大学;2011年
7 刘恒文;基于网络语义挖掘的舆情监测预警研究[D];武汉理工大学;2010年
8 赵若尘;高校校园网络舆情引导研究[D];西南大学;2010年
9 高晔;高校网络舆情管理对策研究[D];上海交通大学;2010年
10 殷婷;网络舆情逆转研究[D];河北大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026