Web舆情事件因果知识流模型及用户行为分析方法
【摘要】:在当今社会,每天会产生各种热点与突发事件。随着互联网技术的快速发展,以网络为载体的各种新型社交媒体开始不断涌现,比如博客、微博等。这就使得现实社会中各种类型的热点与突发事件都能在网络上找到与其相对应的舆情数据。这些舆情数据主要包括新闻网页及其评论,社交媒体中的各种发言和回复等。舆情数据越来越明显的呈现出海量性、多样性、价值稀疏性、碎片性等特点。由于Web舆情事件数据的具有以上特性,使得现有舆情分析工具无法快速分辨哪些事件为紧急或热点事件、事件之间的因果关系以及发现事件中的影响力用户,从而使得终端用户无法了解自己感兴趣的Web事件,以及使得相关的管理部门,无法对Web事件做全方位快速的舆情分析。针对上述问题,本文提出了网络舆情事件因果知识流模型以及用户行为分析方法,拟解决Web舆情事件数据海量性、多样性、价值稀疏性、碎片性的问题。具体研究内容如下:(1)提出了基于贝叶斯理论的Web舆情事件类型的判别方法。按照事件发展的紧急程度,给出了Web舆情事件类型的定义,并将Web舆情事件分为三种类型:紧急事件、热点事件、一般事件;然后,提出度量Web舆情事件发展过程中的几个重要特征参数(Web舆情事件的爆发度、分布偏度系数、波动度、分布峰度系数、离群点等);最后,基于贝叶斯理论建立了网络Web舆情事件类型的概率判别算法,,以对未知的Web舆情事件类型进行分类判别。解决了Web事件舆情数据的海量性问题,使得用户可以及时发现紧急或热点事件。(2)提出了因果关系的抽取方法和事件因果知识流的建立方法。该方法主要分为三个步骤:(1)构建完备的因果提示词集合,并提出了适用于中文语料的因果句式模板,以便较为全面的识别新闻语料中包含因果关系的句子;(2)根据依存于法分析和词性标注的结果,提取句子中的因事件和果事件;(3)通过激活扩散的方法构建了事件之间的因果知识流。解决了Web事件舆情数据中蕴含关系的多样性、碎片性问题。(3)提出了Web舆情事件中影响力用户发现算法。在以往的影响力用户研究中,大多是通过对用户网络的分析来挖掘影响力用户,却忽略了用户内容的作用。本文中,不仅考虑了用户的交互行为网络,而且还考虑了用户的内容网络,构建了关键词关联语义链网络,并形成两层网络。在此行为网络的基础上,通过迭代计算,来发现Web舆情事件中的影响力用户,从而解决了Web事件舆情数据价值稀疏性的问题。(4)基于用户交互行为网络的用户角色挖掘方法。本文定义了三种用户角色(信息制造者、信息推动者、信息桥梁),以及四种中心性(程度中心性、亲近中心性、居间中心性、特征向量中心性)作为用户角色挖掘的基本特征。针对每种不同角色,又提出了额外不同的特征。通过排序聚集的方法,综合各个特征,最终挖掘出用户角色,从而解决了Web事件舆情数据价值稀疏性的问题。本文章提出针对网络舆情事件的因果知识流模型以及用户行为分析方法,不仅可以帮助用户快速了解自己感兴趣的Web舆情事件;还可以帮助管理部门,对Web舆情事件进行及时、准确的研判,并掌控或导向事件的发展。