基于社区划分的舆情热点发现与跟踪方法研究
【摘要】:随着社交网络的高速发展与普及,人们可以随时随地的获取信息和发表言论,由此引发的社会舆情事件层出不穷,因此,舆情热点发现与跟踪一直是当前政府、企业的迫切需求,科研机构的研究热点。目前主流的热点发现及跟踪方法大多是应用文本聚类、主题模型等机器学习算法实现的,但随着社交大数据的到来,这些算法很难快速有效的处理海量复杂的社交大数据,难以满足实时性的要求。针对此问题,本文对基于社区划分的舆情热点发现与跟踪展开研究,利用复杂社交网络中社区结构的性质,浓缩了大量冗余数据,抵抗数据爆炸,实现实时发现及跟踪舆情热点事件,提高舆情安全事件的响应速度。论文首先对当前数据挖掘中的聚类技术、社区划分、舆情热点发现及跟踪等基本方法理论进行了介绍;随后提出了基于社区划分的舆情热点发现方法:根据对社交网络中用户兴趣相似性关系的定义,确定用户相似向量,进而构建相似关系网络,并对该网络进行社区划分,从而将具有相似性的用户节点划分到一起形成相似社区,然后针对每一个相似社区,选取若干相似性代表节点,最后通过获取相似性代表节点的用户主页数据,实时获取舆情热点,实验分析表明,本文算法减少了对大量冗余数据的处理开销,及时应对社交大数据,实时准确地发现舆情热点;接下来,论文阐述了基于社区划分和熵的舆情热点跟踪及预测方法,在基于相似社区划分基础上,引入词的信息熵分析社区内Hub节点的主页实时数据,以实现对当前热点实时跟踪,发现并预测热点演化趋势,并对此方法进行实验分析,结果表明,本文算法能够实时的跟踪并预测当前热点话题,从而能够及时的响应舆情安全事件;最后,对本文的主要工作及创新点进行总结,并简要阐述了研究的不足和对未来工作的展望。