社交网络谣言检测及危害性预测研究
【摘要】:随着互联网技术的普及,在线社交网络成为重要的信息发布和共享服务平台。这些平台发布信息的门槛较低,且信息多样化、表达自由化,成为谣言的产生与扩散的绝佳平台。网络谣言往往具有一定的危害性,容易引发社会恐慌,这对社会进步、国家发展尤为不利。谣言检测技术旨在快速定位疑似谣言的网络信息,是网络谣言治理的基础工作。本文依托深度学习方法,着力解决自动谣言检测面临的关键问题。其一,关键信息背景缺失:社交网络信息内容简短、范围跨度大,通常缺少对背景知识和关键词的解释,容易引发误解产生谣言。其二,迁移样本领域差异:多模态早期谣言检测的训练样本少,但预训练模型使用的源域数据和社交网络谣言数据存在差异,直接迁移效果欠佳。其三,检测结果作用有限:现有方法多数停留在二分类阶段,没有讨论其属于何种更细粒度的类别,不能给出其危害性大小,难以为调查取证缩小范围。本文研究重点主要集中在以下三个方面:(1)针对社交网络短文本关键信息背景缺失问题,提出了基于实体识别和句子重构的谣言检测方法,重点从文本表示优化的角度提升谣言检测性能。该方法首先使用实体识别配合在线知识库对待测文本进行解释嵌入,初步理解其中的关键实体。然后,设计一种句子重构方法对句子的词序和词频进行调整,通过语义增强降低机器理解文本内容的难度。接着,建立包含评论转发数据及统计特征的特征图,统计特征由三部分组成:谣言文本的语言学特征、谣言传播参与者的用户特征和谣言传播的网络结构特征。最后,使用神经网络分类器对特征图进行分类,实现谣言检测功能。在Twitter和微博数据集上的实验结果表明,所提出的方法实现了比以往相关工作更好的性能。(2)针对社交网络谣言数据与预训练模型源域数据间存在的领域差异,提出了基于领域自适应的多模态早期谣言检测方法,缩小领域差异提升检测性能。该方法由三个部分组成:文本特征提取器、视觉特征提取器和融合与分类网络。在文本特征提取器部分,为了提高文本表示的多样性和稳定性,应用多任务共享层、特定任务编码器和选择层构建基于网络的领域自适应模型。在视觉特征提取器部分,为了缩小社交网络图片与图像分类预训练数据集间的领域差异,更好地利用图像分类预训练模型,使用基于对抗的领域自适方法。最后,融合与分类网络采用特征级融合与决策级融合两种特征融合策略综合图文特征。从微博和Twitter收集的多模态数据集的实验表明,所提出的基于领域自适应的多模态网络表现优于相关工作。(3)针对谣言检测结果对后续辟谣工作作用有限的问题,提出了谣言多分类和谣言危害性度量方法,对检测出的谣言进行更细致的划分。首先,通过对现有的谣言数据集进行标注,获得了内容、来源、成因和编写手法四类标签。然后,设计基于稳定学习模块的神经网络分类模型,提高模型在非平衡数据集上的表现。稳定学习模块中使用到了随机傅里叶变换方法以该模型为基础比较了多分类、多标签、多任务三种分类策略。实验结果证明,稳定学习模块与多任务模式的结合取得最优效果。另一方面,本研究提出了基于舆论指数的和基于人工标注的两种危害性度量方法,针对两种方法训练对应的回归模型。通过交叉融合方式找出谣言多分类与谣言危害性预测任务的相互作用。谣言多分类和危害性预测研究对传统谣言检测工作进行了拓展。