基于主题模型和混合模型的微博客交叉话题发现研究
【摘要】:微博客是一个基于用户关系的信息分享、传播以及获取的平台。微博已经成为互联网上的主要信息源之一。跟其他网络文本不同,微博客内容简单(一般少于140个字)且可以通过各种通讯手段(手机、QQ等)实时发布,容易在短时间内产生大量数据,且这些数据通常数量巨大且杂乱无章,所以很难及时准确地获取感兴趣的信息。
话题发现是自然语言处理领域一个新的研究方向,它能够把属于同一话题下的分散的信息有效的汇集并组织起来,从而帮助用户在大数据中快速准确地找到自己感兴趣的信息。传统基于向量空间模型(VSM)和聚类算法相结合的话题检测算法虽得到广泛的应用,且取得了不错的效果,但应用在大规模微博文本话题发现时仍存在很多不足:一是用特征词表示微博文本会出现维度过高、稀疏、同意问题;二是采用文本聚类的话题发现算法大部分都是基于划分的,没有考虑话题之间的关联性,所以存在一定的局限性。
在上述基础上,针对微博文本的特点,采用主题模型作为文本表示模型。常用的主题模型主要有潜在语义分析LSA (Latent Semantic Analysis)、概率潜在语义分析PLSA (Probability Latent semantic Analysis)和潜在狄里克利分布LDA (Latent Dirichlet Allocation),其中LDA是当前最流行和常用的主题模型,所以本文使用该模型用于提取微博文本隐主题。为了解决传统话题发现算法存在的不足,提出混合模型交叉话题发现算法用于微博交叉话题发现。本文设计完成了微博交叉话题发现系统,在真实数据上的实验结果表明,本文提出的算法具有一定的可行性和有效性。