收藏本站
《武汉理工大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义统计分析的网络舆情挖掘技术研究

万源  
【摘要】:随着互联网技术的发展和网络应用的普及,互联网成为民众获取信息的重要来源,同时也成为人们传播信息和表达观点的重要渠道。通过网络了解社情民意,关注舆情动向,对于促进社会和谐稳定、推动社会民主与法制建设具有重要的现实意义。 网络信息浩如烟海,鱼龙混杂,人工识别和研判显得力不从心。如何利用计算机网络技术、人工智能技术和数据挖掘技术,对网络舆情信息有效地挖掘和分析成为了一个新的研究热点。如何识别民众所关注的热点话题并有效地分类,如何判断民众对社会事件的态度是正向的还是反向的,如何分析和把握社会热点事件的波动性等,是网络舆情研究中的亟需解决的重点问题,对认识和引导网络舆情具有重要的科学意义。 本文针对网络舆情信息的挖掘和分析中存在的问题展开研究,将基于Web的文本分类技术、机器学习算法研究、波动性的统计分析等技术应用到网络突发事件的分类、网络舆情信息的情感倾向性分析、舆情演变的波动性分析等研究中。主要的研究内容和创新点包括: 1.本文提出将Fisher判别准则应用到网络舆情文本的分类问题中,并实现对突发事件的分类。由突发事件引发的网络舆情信息,从内容形式来看主要为文本,因此舆情信息的分类本质上是文本分类的问题。Fisher判别准则是解决降维问题的有效方法之一,但在文本分类中研究较少。本文将Fisher判别准则作为分类的特征提取的方法应用于文本分类,并应用于网络突发事件新闻报道的分类。针对舆情的相关研究,将突发事件按照公共安全的四类,即突发自然灾害、事故灾难、公共卫生事件和社会安全事件进行分类。实验证明,Fisher准则的方法略逊于信息增益,但比较其他特征选择方法都更好。 2.本文提出基于类别相关度的局部潜在语义分析的算法LR-LSA,改进了局部潜在语义分析算法进行文本分类。分析介绍了潜在语义分析的原理,包括奇异值分解和计算文档间相似关系的方法。通过分析潜在语义分析方法的局限性,提出算法LR-LSA,先利用SVM分类器给每篇文档一个类别相关度,然后根据相关度的大小选择生成局部区域的方法。在中文Web文本语料的两组分类实验中,验证了算法LR-LSA比LSA和LC-LSA更有效。 3.针对机器学习方法在情感倾向性分析中对情感语义信息考虑不足的问题,本文提出了将情感模式和机器学习相结合的方法PMML,并应用于Web评论文本的情感倾向性分类。介绍了情感倾向性分析的相关研究,包括不同粒度级的基于情感词典分析的分类方法,以及基于机器学习的情感倾向性分类方法。利用本文提出的方法PMML对Web评论文本分类,在对原始语料文本进行基本的分词之后,先进行关键词提取,再进行模式匹配来提取情感评价短语,匹配成功后形成相应的情感特征序列,分别计算每个特征的情感倾向值,再通过机器学习的方法最终得到文本的情感倾向。实验验证了PMML方法较之机器学习的方法在分类效果上的有效性。 4.本文提出基于GARCH类模型的网络舆情信息演变的波动性研究方法。在热点事件的传播过程中,波动性是其重要特征之一,强烈的波动往往意味着信息内容的不断传播和各种流言的不断蔓延,存在转变为突发事件的可能性。通过分析网络舆情演变过程中的波动性的特点,如变化率序列呈现的异方差性、尖锋厚尾性等,对比金融领域的波动性,本文提出基于GARCH类模型的波动性研究方法。通过热点事件在主流搜索引擎中采集到的Web页面数,定量地分析与这个事件相关的舆情演变趋势。选择社会热点事件“温州动车事故”,通过收集数据,分析变化率,分别建立了GARCH, EGARCH, TARCH模型。实证分析了说明GARCH类模型对舆情演变的波动性分析的可行性。
【学位授予单位】:武汉理工大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前1条
1 潘正高;张磊;;一种模式匹配和统计学习相结合的文本情感分类方法[J];宿州学院学报;2013年01期
【参考文献】
中国期刊全文数据库 前10条
1 夏志梅;彭光芒;;网络空间中的“沉默的螺旋”理论的局限性[J];北京理工大学学报(社会科学版);2006年03期
2 蒋宇;;“沉默的螺旋”与网络传播[J];重庆交通大学学报(社会科学版);2007年04期
3 徐晓日;;网络舆情事件的应急处理研究[J];华北电力大学学报(社会科学版);2007年01期
4 单丽莉;刘秉权;孙承杰;;文本分类中特征选择方法的比较与改进[J];哈尔滨工业大学学报;2011年S1期
5 孙佰清;董靖巍;;重大公共危机网络舆情扩散监测和规律分析[J];哈尔滨工业大学学报(社会科学版);2011年01期
6 李实;叶强;李一军;Rob Law;;中文网络客户评论的产品特征挖掘方法研究[J];管理科学学报;2009年02期
7 胡熠;陆汝占;李学宁;段建勇;陈玉泉;;基于语言建模的文本情感分类研究[J];计算机研究与发展;2007年09期
8 白鸽;左万利;赵乾坤;曲仁镜;;使用机器学习对汉语评论进行情感分类[J];吉林大学学报(理学版);2009年06期
9 袁志坚;王乐;田李;贾焰;杨树强;;数据流突发检测研究与进展[J];计算机工程与应用;2008年21期
10 熊德兰;程菊明;田胜利;;基于HowNet的句子褒贬倾向性研究[J];计算机工程与应用;2008年22期
中国重要会议论文全文数据库 前1条
1 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前4条
1 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
2 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
3 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
4 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前3条
1 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
2 刘恒文;基于网络语义挖掘的舆情监测预警研究[D];武汉理工大学;2010年
3 陆题佳;互联网中危机信息传播规律及应对模式研究[D];中国科学技术大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 乌庆敏;方少卿;谢亮亮;;一种加权的KNN中文问句分类方法研究[J];安徽广播电视大学学报;2010年03期
2 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
3 许丽莉;贾保先;李寰;;Web数据挖掘在农业电子商务中的应用[J];安徽农业科学;2012年07期
4 吴昊;耿焕同;吴祥;;一种基于聚类分析的BBS主题发现算法研究[J];安徽师范大学学报(自然科学版);2009年01期
5 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
6 张一文;齐佳音;方滨兴;李欲晓;;非常规突发事件网络舆情指标体系建立初探——概念界定与基本维度[J];北京邮电大学学报(社会科学版);2010年04期
7 刘颖;李欲晓;;网络舆情传播特征分析[J];北京邮电大学学报(社会科学版);2011年04期
8 秦艳琴;朱婧婷;;网络图书评论分析与编辑智慧[J];中国编辑;2011年02期
9 来向武;赵战花;;利用网络传播进行危机预警的优势与方式[J];今传媒;2010年03期
10 王国华;戴雨露;;网络传播中的“反沉默螺旋”现象研究[J];北京理工大学学报(社会科学版);2010年06期
中国重要会议论文全文数据库 前10条
1 赵兴;余正涛;邹俊杰;郭剑毅;毛存礼;;结合依存句法与实体的领域答案句模学习方法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
5 朱翊;李汝雯;刘晓东;柳棽;;GIS在突发事件应急处理系统中的定位与信息发布应用[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
6 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
7 杨江;侯敏;;语言文字舆情论略[A];中国传媒大学第四届全国新闻学与传播学博士生学术研讨会论文集[C];2010年
8 潘崇霞;;网络舆情演化的阶段分析[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
9 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
10 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨峰;本体映射关键技术研究[D];吉林大学;2011年
7 王涛;突发公共事件元事件模型及事件演化研究[D];大连理工大学;2011年
8 方付建;突发事件网络舆情演变研究[D];华中科技大学;2011年
9 张玉强;网络舆情危机的政府适度反应研究[D];中央民族大学;2011年
10 贺佐成;社会资本视角下城市虚拟社区治理研究[D];中央民族大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘岩;突发环境事件应急法律制度研究[D];山东科技大学;2010年
2 秦璐;网络舆情引导方法研究[D];广西师范学院;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 张书春;数据挖掘技术在SMS系统中的应用研究[D];郑州大学;2010年
6 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
7 王宇轩;基于汉民族思维模式的情感计算[D];大连理工大学;2010年
8 卢晓伟;基于GPU的数据流处理方法研究[D];大连理工大学;2010年
9 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
10 欧阳小婷;企业危机中的网络舆论引导研究[D];湘潭大学;2010年
【同被引文献】
中国期刊全文数据库 前3条
1 白鸽;左万利;赵乾坤;曲仁镜;;使用机器学习对汉语评论进行情感分类[J];吉林大学学报(理学版);2009年06期
2 昝红英;左维松;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[J];计算机工程与科学;2011年05期
3 王素格;杨军玲;张武;;自动获取汉语词语搭配[J];中文信息学报;2006年06期
【二级参考文献】
中国期刊全文数据库 前10条
1 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
2 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
3 王澍文,陈迅;重视Internet/Intranet环境下的企业危机管理[J];商业研究;2003年13期
4 李良俊;张斌;杨明;;基于LSA降维的KNN文本分类算法[J];东北师大学报(自然科学版);2007年02期
5 ;Genetic Feature Selection for Texture Classification[J];Geo-Spatial Information Science;2004年03期
6 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
7 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
8 杨静;高俊波;;WWW上的主题传播研究[J];电力信息化;2007年05期
9 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
10 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
中国重要会议论文全文数据库 前7条
1 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
3 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 徐琳宏;林鸿飞;;文本情感语料库的构建和分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前3条
1 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
2 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
3 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
2 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
3 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
4 关晓蔷;基于决策树的分类算法研究[D];山西大学;2006年
5 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
6 陈慧芳;文本分类中特征向量空间降维方法研究[D];东南大学;2005年
7 孙春明;高性能特征选择及文本分类算法研究[D];华北电力大学(北京);2007年
8 王丫;网络新闻流中热点事件识别与跟踪算法的改进与验证[D];燕山大学;2007年
9 钟绍军;凸约束广义线性回归模型参数的极大似然估计研究[D];武汉理工大学;2007年
10 杨梅;网络舆情热点发现的研究[D];北京交通大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 张玉峰;何超;;基于潜在语义分析和改进的HS-SVM的文本分类模型研究[J];图书情报工作;2010年10期
2 李良俊;张斌;杨明;;基于LSA降维的KNN文本分类算法[J];东北师大学报(自然科学版);2007年02期
3 任红梅;;文本分类中的同义词和关联词聚类算法研究[J];计算机系统应用;2007年11期
4 张元虹;郭剑毅;龚华明;薛征山;;基于DF与LSA相结合的降维法的文本分类系统的研究[J];山西电子技术;2008年04期
5 王永智;滕至阳;王鹏;聂江涛;;基于LSA和SVM的文本分类模型的研究[J];计算机工程与设计;2009年03期
6 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期
7 朱颢东;钟勇;;结合优化的文档频和LSA的特征选择方法[J];计算机工程与应用;2009年34期
8 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
9 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
10 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 孙愫、媛媛;中宣部舆情局领导来我市参观考察[N];唐山劳动日报;2010年
2 临县宣传部 李玉峰;浅谈舆情信息写作[N];吕梁日报;2011年
3 记者 邹雄;研究网络舆情的调查回应工作[N];柴达木日报;2011年
4 记者 李高阳;国企承受负面舆情压力大[N];第一财经日报;2011年
5 记者 郝勇;妇女舆情信息直报点制年内建[N];四川日报;2011年
6 郑言;人民网副总裁陈智霞:资本市场舆情监测已成朝阳行业[N];证券时报;2011年
7 南方日报记者 赵新星;舆情和微博问政报告 舆情汹涌,政府怎么办?[N];南方日报;2011年
8 陈婕;《环保舆情》成有力助手[N];中国环境报;2011年
9 兰州大学图书馆馆长、教授 沙勇忠;重视网络舆情的监测与导控[N];民主协商报;2011年
10 本报记者 唐琳;以自信和坦诚的态度看待网络舆情[N];人民公安报;2011年
中国博士学位论文全文数据库 前10条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
6 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
7 王根生;面向群体极化的网络舆情演化研究[D];江西财经大学;2011年
8 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
9 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
10 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 袁野;基于Vague集的网络舆情研究[D];西安电子科技大学;2010年
2 罗引;互联网舆情发现与观点挖掘技术研究[D];电子科技大学;2010年
3 高晔;高校网络舆情管理对策研究[D];上海交通大学;2010年
4 巨慧慧;针对网络舆情的情感倾向性研究[D];哈尔滨工业大学;2010年
5 项斌;网络舆情监测系统设计与实现[D];电子科技大学;2010年
6 赵若尘;高校校园网络舆情引导研究[D];西南大学;2010年
7 殷婷;网络舆情逆转研究[D];河北大学;2010年
8 陈华;危机管理视角下的公安网络舆情应对研究[D];复旦大学;2010年
9 林艳;网络舆情突发事件的应急管理研究[D];郑州大学;2010年
10 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026