收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于语义统计分析的网络舆情挖掘技术研究

万源  
【摘要】:随着互联网技术的发展和网络应用的普及,互联网成为民众获取信息的重要来源,同时也成为人们传播信息和表达观点的重要渠道。通过网络了解社情民意,关注舆情动向,对于促进社会和谐稳定、推动社会民主与法制建设具有重要的现实意义。 网络信息浩如烟海,鱼龙混杂,人工识别和研判显得力不从心。如何利用计算机网络技术、人工智能技术和数据挖掘技术,对网络舆情信息有效地挖掘和分析成为了一个新的研究热点。如何识别民众所关注的热点话题并有效地分类,如何判断民众对社会事件的态度是正向的还是反向的,如何分析和把握社会热点事件的波动性等,是网络舆情研究中的亟需解决的重点问题,对认识和引导网络舆情具有重要的科学意义。 本文针对网络舆情信息的挖掘和分析中存在的问题展开研究,将基于Web的文本分类技术、机器学习算法研究、波动性的统计分析等技术应用到网络突发事件的分类、网络舆情信息的情感倾向性分析、舆情演变的波动性分析等研究中。主要的研究内容和创新点包括: 1.本文提出将Fisher判别准则应用到网络舆情文本的分类问题中,并实现对突发事件的分类。由突发事件引发的网络舆情信息,从内容形式来看主要为文本,因此舆情信息的分类本质上是文本分类的问题。Fisher判别准则是解决降维问题的有效方法之一,但在文本分类中研究较少。本文将Fisher判别准则作为分类的特征提取的方法应用于文本分类,并应用于网络突发事件新闻报道的分类。针对舆情的相关研究,将突发事件按照公共安全的四类,即突发自然灾害、事故灾难、公共卫生事件和社会安全事件进行分类。实验证明,Fisher准则的方法略逊于信息增益,但比较其他特征选择方法都更好。 2.本文提出基于类别相关度的局部潜在语义分析的算法LR-LSA,改进了局部潜在语义分析算法进行文本分类。分析介绍了潜在语义分析的原理,包括奇异值分解和计算文档间相似关系的方法。通过分析潜在语义分析方法的局限性,提出算法LR-LSA,先利用SVM分类器给每篇文档一个类别相关度,然后根据相关度的大小选择生成局部区域的方法。在中文Web文本语料的两组分类实验中,验证了算法LR-LSA比LSA和LC-LSA更有效。 3.针对机器学习方法在情感倾向性分析中对情感语义信息考虑不足的问题,本文提出了将情感模式和机器学习相结合的方法PMML,并应用于Web评论文本的情感倾向性分类。介绍了情感倾向性分析的相关研究,包括不同粒度级的基于情感词典分析的分类方法,以及基于机器学习的情感倾向性分类方法。利用本文提出的方法PMML对Web评论文本分类,在对原始语料文本进行基本的分词之后,先进行关键词提取,再进行模式匹配来提取情感评价短语,匹配成功后形成相应的情感特征序列,分别计算每个特征的情感倾向值,再通过机器学习的方法最终得到文本的情感倾向。实验验证了PMML方法较之机器学习的方法在分类效果上的有效性。 4.本文提出基于GARCH类模型的网络舆情信息演变的波动性研究方法。在热点事件的传播过程中,波动性是其重要特征之一,强烈的波动往往意味着信息内容的不断传播和各种流言的不断蔓延,存在转变为突发事件的可能性。通过分析网络舆情演变过程中的波动性的特点,如变化率序列呈现的异方差性、尖锋厚尾性等,对比金融领域的波动性,本文提出基于GARCH类模型的波动性研究方法。通过热点事件在主流搜索引擎中采集到的Web页面数,定量地分析与这个事件相关的舆情演变趋势。选择社会热点事件“温州动车事故”,通过收集数据,分析变化率,分别建立了GARCH, EGARCH, TARCH模型。实证分析了说明GARCH类模型对舆情演变的波动性分析的可行性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张玉峰;何超;;基于潜在语义分析和改进的HS-SVM的文本分类模型研究[J];图书情报工作;2010年10期
2 李良俊;张斌;杨明;;基于LSA降维的KNN文本分类算法[J];东北师大学报(自然科学版);2007年02期
3 任红梅;;文本分类中的同义词和关联词聚类算法研究[J];计算机系统应用;2007年11期
4 张元虹;郭剑毅;龚华明;薛征山;;基于DF与LSA相结合的降维法的文本分类系统的研究[J];山西电子技术;2008年04期
5 王永智;滕至阳;王鹏;聂江涛;;基于LSA和SVM的文本分类模型的研究[J];计算机工程与设计;2009年03期
6 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期
7 朱颢东;钟勇;;结合优化的文档频和LSA的特征选择方法[J];计算机工程与应用;2009年34期
8 许增福,梁静国,田晓宇;基于FVSM和自组织映射网络的Web文本自动分类方法[J];哈尔滨工业大学学报;2004年09期
9 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
10 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
11 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
12 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
13 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
14 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
15 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
16 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
17 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
18 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
19 董梅;胡学钢;;基于多特征选择的中文文本分类[J];计算机技术与发展;2007年07期
20 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
4 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
8 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
9 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
10 王根生;面向群体极化的网络舆情演化研究[D];江西财经大学;2011年
中国硕士学位论文全文数据库 前10条
1 袁野;基于Vague集的网络舆情研究[D];西安电子科技大学;2010年
2 罗引;互联网舆情发现与观点挖掘技术研究[D];电子科技大学;2010年
3 高晔;高校网络舆情管理对策研究[D];上海交通大学;2010年
4 巨慧慧;针对网络舆情的情感倾向性研究[D];哈尔滨工业大学;2010年
5 项斌;网络舆情监测系统设计与实现[D];电子科技大学;2010年
6 赵若尘;高校校园网络舆情引导研究[D];西南大学;2010年
7 殷婷;网络舆情逆转研究[D];河北大学;2010年
8 陈华;危机管理视角下的公安网络舆情应对研究[D];复旦大学;2010年
9 林艳;网络舆情突发事件的应急管理研究[D];郑州大学;2010年
10 王培顺;互联网教育舆情监测系统的设计与实现[D];华中师范大学;2011年
中国重要报纸全文数据库 前10条
1 孙愫、媛媛;中宣部舆情局领导来我市参观考察[N];唐山劳动日报;2010年
2 临县宣传部 李玉峰;浅谈舆情信息写作[N];吕梁日报;2011年
3 记者 邹雄;研究网络舆情的调查回应工作[N];柴达木日报;2011年
4 记者 李高阳;国企承受负面舆情压力大[N];第一财经日报;2011年
5 记者 郝勇;妇女舆情信息直报点制年内建[N];四川日报;2011年
6 郑言;人民网副总裁陈智霞:资本市场舆情监测已成朝阳行业[N];证券时报;2011年
7 南方日报记者 赵新星;舆情和微博问政报告 舆情汹涌,政府怎么办?[N];南方日报;2011年
8 陈婕;《环保舆情》成有力助手[N];中国环境报;2011年
9 兰州大学图书馆馆长、教授 沙勇忠;重视网络舆情的监测与导控[N];民主协商报;2011年
10 本报记者 唐琳;以自信和坦诚的态度看待网络舆情[N];人民公安报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978