面向多模态社交数据的情感分析技术研究
【摘要】:信息与通信技术的发展加速了社交媒体融入到大众的日常生活中,用户从传统的信息消费者逐渐转变为信息的生产者。用户在社交平台上发布的内容携带着大量的个人情感和观点信息,在虚拟网络中不断传播、发酵,进而影响到现实世界的进程和发展。因此,分析和识别社交数据中潜在的情感信息始终是情感计算和自然语言处理领域的一项重要基础工作。但是通信技术的发展改变了传统社交数据的内容形式,用户发布的内容不再局限于单一的文本信息,而是混合文本、图像、语音的多模态数据。多模态社交数据的出现使得情感分析成为了跨领域、跨学科的难点问题,它不仅需要相应领域的处理技术解决多模态数据存在的异构性问题,还需要心理学和认知学的专家知识指导信息的融合和模型的设计。当前的情感分析研究已经取得了一定的进展,但是现有的方法大多忽略了具体应用场景中特殊数据类型所带来的问题,包括:(1)微博场景中的短文本表示问题。传统的情感分析工作大多关注于长文本内容,忽略了短文本表示存在的特征稀疏和信息匮乏问题,难以从有限的词语中学习到高效的特征表示。(2)商品评论场景中的单文本多图像融合问题。商品评论数据通常由一段文字和多幅图像构成,这些图像无法传递完整的情感信息,只能起到辅助增强文本情感的作用。而现有的图文情感分析方法通常假设文本与图像具有相同的重要性,不符合商品评论场景的实际情况。(3)视频场景中的多模态时序表示及融合问题。视频数据可以分解为文本、图像、语音三种类型的时序模态,该类数据具有序列特征,并且彼此之间存在着时间尺度上的交互关系。该类场景下的情感分析模型需要提取模态内部的序列特征,挖掘跨模态的时序交互关系。(4)多模态融合过程中的信息控制问题。当前方法只关注于对多源异质信息的聚合,忽略了对原始模态信息的选择和过滤。在多模态情感表达过程中,模态之间普遍存在着一致性和特异性信息,这要求模型能够捕获到完整的两类信息,并且过滤与任务无关的噪声信息,从而学习到紧致高效的融合表示。基于上述几点问题,本文针对性提出以下四点研究内容,并从特征表示、信息融合和模型设计的角度提出相应的创新和改进工作:(1)针对微博场景中的短文本表示问题,本文提出基于对抗变分贝叶斯的短文本情感分类模型。首先在模型设计上,采用端到端的学习框架,解决了上游主题模型与下游任务模型之间学习目标不一致的问题,并获得更具判别性的紧致主题特征。其次,通过引入谱规范化技术,缓解了原始模型在训练过程中出现的震荡性问题。最后,利用多阶段的融合过程,整合主题特征与预训练词向量的信息,克服了短文本存在的信息匮乏问题。(2)针对商品评论场景中的单文本多图像融合问题,本文提出基于决策多样性的图文融合情感分类模型。该模型首先以文本信息为主体,利用图像信息辅助定位文本中情感相关的词语,正确建模了特殊场景下的图文交互关系,实现了跨模态的特征级融合。然后基于集成学习的思想,设计了决策融合机制,对来自于单模态和融合表示的决策级信息进行融合。最后,通过添加决策相似性惩罚,提高了模型整体决策的多样性和泛化性。(3)针对视频场景中的多模态时序表示及融合问题,本文提出基于多任务学习的时序多模态情感分析模型。该模型集成卷积神经网络、双向循环神经网络和多头自注意力机制,对不定长的时序输入进行维度和长度的统一,提取局部和全局的关联信息,解决了时序单模态的特征表示问题。然后通过跨模态时序特征融合方法,建模时间尺度上的双向交互关系,解决了跨模态的时序融合问题。最后采用多任务模型设计,在关联任务间共享单模态和跨模态表示,利用相关任务的领域知识和监督信息提升模型的准确度和泛化性。(4)针对多模态融合过程中的信息控制问题,本文提出基于信息分解与融合的多模态情感分析模型。首先通过变分编码器推断单模态输入在子空间上的潜在分布,利用相似性和差异性约束,显式分离一致性和差异性信息。然后基于信息瓶颈原则,最大化融合表示与一致性和特异性表示的互信息以提取任务相关的信息,同时降低与原始模态的互信息以过滤无关的噪声信息。最后,为了避免在信息分解和融合过程中存在的信息丢失风险,设计重构任务,尝试从融合表示中恢复原始输入,从而为上游模块添加完整性约束。