收藏本站
《哈尔滨工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

互联网舆情信息挖掘方法研究

杜阿宁  
【摘要】: 及时掌握舆情动态、积极引导社会舆论,是维护社会稳定和执政党执政安全的重要举措。随着Internet迅猛发展,互联网拥有越来越庞大的用户群,且逐渐发展成为群众发布信息、获取信息和传递信息的主要载体。因此,基于互联网的舆情信息挖掘技术越来越受到广泛关注。舆情是指一定时期内一定范围内的社会群体对某些社会现象和现实的主观反映。互联网舆情信息挖掘技术作为舆情信息挖掘的有效手段成为研究热点。然而,现有互联网舆情信息挖掘技术的研究中暴露出信息海量性、处理时效性和预警准确性方面的问题,因此亟需互联网舆情信息挖掘在理论体系和挖掘方法上实现突破。 本文针对互联网舆情信息挖掘技术进行研究,在明确舆情及其相关概念基础上,着重探讨互联网舆情信息挖掘的体系结构和互联网舆情信息形成过程中不同阶段所采用的不同挖掘方法。主要研究内容如下: 互联网舆情信息挖掘的体系结构是一项重要的研究内容。本文提出包括属性层、信息采集层、挖掘层和处置层的互联网舆情信息挖掘四层体系结构。其中属性层覆盖舆情信息存在空间、发生时间、变化走势和转化机制中的一般规律;信息采集层覆盖互联网舆情信息采集过程中涉及到的关注主题类、采集空间、采集内容等问题;挖掘层覆盖互联网舆情信息处于不同挖掘时机、基于不同挖掘目的、所采用的挖掘方法;处置层覆盖互联网舆情信息的评价、分析与处置手段。四层体系结构是互联网舆情信息挖掘的基础。 在互联网舆情信息的产生阶段,本文提出内容敏感网页的舆情监控方法,实现敏感信息监控和不良信息过滤。针对内容敏感网页监控方法,本文提出用户兴趣聚焦度的概念,把用户过滤需求看作以用户感兴趣事物为核心、由不同用户兴趣聚焦度为半径形成的非形式化连续空间,借此表达用户在过滤倾斜情况上的需求。基于用户兴趣聚焦度,本文提出中文敏感网页过滤算法,一方面把网页结构中的URL分析、主题句分析、正文分析相结合,另一方面把用户兴趣聚焦度量化后引入机器学习算法的训练阶段用于正文分析。实验结果表明,内容敏感网页过滤算法有效提高了网页的过滤精度和处理速度,解决了互联网舆情信息产生阶段的舆情发现问题。 在互联网舆情信息的传播阶段,本文提出针对大多数用户阅读的新闻主题进行挖掘的舆情监测方法,及时了解群众关心的舆情热点并避免某些问题转化为突发事件爆发。针对频繁访问主题监控方法,本文提出基于差值编码双向链表的数据流中频繁项监测确定性算法Frequent Sketch(FS)。FS算法的空间复杂度O(log(εn)/ε),数据项平摊处理时间O(1),算法生成的全局摘要S是ε-亏度摘要。基于FS算法及其在窗口数据流上的扩展算法FS-Win,本文提出一种互联网频繁访问主题挖掘算法。实验分析表明,该算法能够实时地进行用户频繁访问主题挖掘,解决了互联网舆情信息传播阅览阶段的监测问题。 在互联网舆情信息的转载阶段,本文提出针对大多数网页转载的新闻主题进行挖掘的舆情计量方法,了解当前互联网舆情主题的状态,发现热门舆情事件的发生和群众对事件的舆论倾向。针对舆情态势计量方法,本文提出NISAC指数方法,NISAC指数借鉴经济指数和社会指数的编制方法,以互联网空间中含有特定词的页面数量为基础进行指数编制。数据分析表明,NISAC指数能够对互联网反映出的社会运行安全态势进行监测、评估和预警,解决了互联网舆情信息转载阶段的掌控问题。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 刘毅;舆情视角下的群体性突发事件机制研究[J];湖北社会科学;2005年09期
2 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
3 杜骏飞;流言的流变:SARS舆情的传播学分析[J];南京大学学报(哲学.人文科学.社会科学版);2003年05期
4 秦州;新闻搜索中的舆情“峰值”——中国近年来重大矿难报道WEB页面数分析[J];新闻界;2005年05期
5 张克生;舆情机制是国家决策的根本机制[J];理论与现代化;2004年04期
6 李晓明,朱家稷,闫宏飞;互联网上主题信息的一种收集与处理模型及其应用[J];计算机研究与发展;2003年12期
7 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
8 王来华,刘毅;2004年舆情研究综述[J];天津大学学报(社会科学版);2005年04期
9 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
10 阎耀军;社会稳定的计量及预警预控管理系统的构建[J];社会学研究;2004年03期
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
5 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
6 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
7 梁伍七,江克勤;数据挖掘中的模糊聚类分析及其应用[J];安庆师范学院学报(自然科学版);2004年02期
8 韩世威;图书馆员的职业素质[J];鞍山科技大学学报;2003年06期
9 王晓红,高洪深;数据挖掘技术在大型超市中的应用研究[J];北方工业大学学报;2003年03期
10 朱宏武,蔡勇,刘自伟;数据库中基于粗糙集的分类和约简[J];兵工自动化;2003年05期
中国重要会议论文全文数据库 前10条
1 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
2 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
3 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
5 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
6 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 江杨;;流数据存储系统体系结构研究[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
8 姚正;;关于决策树分类模型的评分函数研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
9 王忠;;制造业中知识管理的模型·工具·环境[A];2007海南机械科技论坛论文集[C];2007年
10 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
2 魏立梅;聚类分析新方法的研究与应用[D];西安电子科技大学;1998年
3 王寅;化工过程混合建模问题研究[D];浙江大学;2001年
4 许志兴;粗集理论的若干技术及其应用研究[D];南京航空航天大学;2001年
5 杨兵;人—机交互中手绘图形的联机识别方法研究[D];西安电子科技大学;2001年
6 姚俊峰;人工智能与混沌理论在铜锍吹炼炉实时仿真与优化决策中的应用研究[D];中南大学;2001年
7 刘业政;基于粗糙集数据分析的智能决策支持系统研究[D];合肥工业大学;2002年
8 朱建生;基于知识管理的现代办公信息系统的研究[D];铁道部科学研究院;2002年
9 李杰;基于模糊技术的制造单元构建方法及其在变压器企业中的应用[D];河北工业大学;2002年
10 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
中国硕士学位论文全文数据库 前10条
1 赵克强;新时期舆论调控研究[D];河南大学;2007年
2 曾雪强;潜在语义分类模型的研究[D];江西师范大学;2005年
3 付雪峰;基于模糊—粗糙集的文本分类模型[D];江西师范大学;2005年
4 徐晓曼;失业风险预警机制研究[D];东北师范大学;2005年
5 张玲东;流式数据库系统的研究与设计[D];南京航空航天大学;2005年
6 黄琼英;支持向量机多类分类算法的研究及应用[D];河北工业大学;2005年
7 刘丹;论我国对外传播中的媒体形象[D];华中科技大学;2004年
8 杨小涛;支持向量机算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
9 马磊;面向工作流的数据挖掘系统[D];河北工业大学;2000年
10 蒋运承;Rough集和Rough关系数据库中熵的研究[D];广西师范大学;2000年
【同被引文献】
中国期刊全文数据库 前10条
1 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
2 唐培丽,胡明,张勇;基于中文文本主题提取的分词方法研究[J];吉林工程技术师范学院学报;2005年02期
3 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
4 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
5 高琰,谷士文,谭立球,费耀平;基于Lucene的搜索引擎设计与实现[J];微机发展;2004年10期
6 陈艳春;李双平;;基于Lucene的企业级搜索引擎的设计与实现[J];现代图书情报技术;2007年08期
7 毕强;廖仁泉;;论接受场与信息[J];情报科学;1993年06期
8 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
9 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
10 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期
中国重要会议论文全文数据库 前3条
1 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
2 ;中文信息处理重大成果汇报展方正集团展示内容介绍[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 陈华;梁循;阮进;;网络与舆情关联分析系统的设计实现[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
2 聂辰席;企业竞争力评价方法及其应用研究[D];天津大学;2003年
3 赵颖;突发事件应对法治研究[D];中国政法大学;2006年
4 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 王伟;公共危机信息管理体系构建与运行机制研究[D];吉林大学;2007年
6 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
7 魏玖长;危机事件社会影响的分析与评估研究[D];中国科学技术大学;2006年
8 孙多勇;突发性社会公共危机事件下个体与群体行为决策研究[D];国防科学技术大学;2005年
9 刘兵;关于中国互联网内容管制理论研究[D];北京邮电大学;2007年
10 杨波;复杂社会网络的结构测度与模型研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 谭桂荣;大学课堂教学理性的缺失与重建[D];山东师范大学;2007年
2 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
3 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
4 王钦;基于数据挖掘的智能答疑系统的研究与设计[D];济南大学;2007年
5 王蓉;医学网站站内搜索引擎研究与实现[D];南昌大学;2007年
6 贾华瑞;社会主义核心价值体系下民间舆论场研究[D];天津师范大学;2008年
7 彭博;网络群体性事件的规律分析和防范策略研究[D];上海交通大学;2008年
8 刘斌;基于Web的HTML网页清洗技术的研究与实现[D];华北电力大学(北京);2007年
9 游海燕;基于BP原理的指标体系建立模型方法研究[D];第三军医大学;2004年
10 董竟;试论政府公共危机信息传播机制的构建与完善[D];首都经济贸易大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 张丽红;公众对腐败的不健康社会心态剖析[J];党政干部学刊;2004年03期
2 孟涛,闫宏飞,李晓明;一种评价搜索引擎信息覆盖率的模型及其验证[J];电子学报;2003年08期
3 陈新汉;哲学审视中的社会谣言[J];湖南师范大学社会科学学报;2004年01期
4 张克生;舆情机制是国家决策的根本机制[J];理论与现代化;2004年04期
5 王来华;基于城市失业问题的“新贫困”现象研究及其概念变化[J];理论与现代化;2004年05期
6 刘月平;社会心理压力及情绪的不良转化——兼论与舆情的关系[J];兰州学刊;2004年06期
7 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
8 陈新汉;论社会思潮的民众评价机制[J];攀登;2003年03期
9 宋林飞;社会风险指标体系与社会波动机制[J];社会学研究;1995年06期
10 阎耀军;社会稳定的计量及预警预控管理系统的构建[J];社会学研究;2004年03期
【相似文献】
中国期刊全文数据库 前10条
1 刘磊;;网络舆情深度挖掘模式研究[J];情报探索;2010年12期
2 陆蓓;程肖;谌志群;;互联网舆情挖掘研究述略[J];情报资料工作;2010年02期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国博士学位论文全文数据库 前1条
1 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
中国知网广告投放
相关机构
>哈尔滨工业大学
相关作者
>杜阿宁
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026