基于异构语义特征的社交网络文本主题发现研究
【摘要】:主题模型是文本分析的一种有效技术,在舆情分析、问答系统、个性化推荐等领域得到了广泛应用。随着社交网络的快速发展,多样化的应用平台的出现,多源实时数据的生成过程中,数据的构成类型、受到用户关注程度、主题时效性等方面产生了不一致的语义内涵,引发了异构的语义特征学习与表达问题,为传统的主题模型提出了新的挑战和问题。所以,提出有效的异构性语义特征的表示和学习方法,具有重要的研究价值和现实意义。本文在常规文本主题发现、目标主题发现、知识图嵌入技术研究的基础上,根据所处理的异构性语义特征的类型,提出了几种社交网络文本的主题发现算法。主要研究工作如下:(1)提出一种异构文本主题发现方法。在同一个社交网络平台可能会产生不同类型的数据,但一般会存在主题共享。常规的主题发现算法仅针对单一文本数据类型进行建模,对主题结构和主题密度产生的异构语义表达效果不好。为此,本文提出了一种基于自适应滑动窗口的主题发现算法SSWTM,通过自适应调整文档词对抽取窗口的规模,在考虑短文本稀疏性的同时,避免了常规文本的主题冗余,解决了异构文本的自适应主题发现问题。实验结果表明,SSWTM有效适用于异构数据类型的文本主题发现,在文档分类问题上有优秀的表现。(2)提出两种目标主题发现方法。同一个文本包含的主题对于具有不同兴趣点的用户来说,所受到的关注度不同,从而导致数据关注度的异构问题。通常的主题发现模型基于全分析方法,无法突出特定领域的目标主题。为此,本文提出了两种目标主题发现算法TATM和HFTM,前者通过平衡主题同质性和主题完备性,后者通过构建层次性的目标主题语义,有效地细化了主题发现粒度。实验结果表明,TATM和HFTM适用于目标主题发现任务,解决了目标主题语义特征的稀疏问题,且相比于已有算法更具时间效率。(3)提出一种可解释的动态主题发现方法。社交网络文本内容和数据关联随时间变化,生成了动态的主题结构,且主题词语义在不同时间点产生了偏移,常规的动态主题发现方法无法保证主题的可解释性。为此,本文提出了一种可解释的主题发现方法KITE,融合全局和局部知识,实现了对时效性异构的文本的主题发现。实验结果表明,KITE融合知识图嵌入保证了主题的可解释性,并且通过邻域更新,有效地提升了对主题演化的敏感性。