监督概率主题模型研究
【摘要】:文本数据的主题特征提取和隐含语义分析一直是机器学习和数据挖掘任务中一项重要工作,被广泛应用于机器翻译、文本分类、关键词提取等任务中。由于文本数据包含较高的维数和多种复杂的语义结构,因此文本分析任务面临着许多的困难和问题。如何有效分析文本的复杂语义结构以及对文本进行有效的降维表示一直是人们研究的重点内容。
近年来基于贝叶斯分层模型的概率主题模型,如隐含狄利克雷分配(LatentDirichlet Allocation,LDA)模型等,由于优良的数据降维能力和可解释的文档主题提取能力逐渐受到人们的关注。标准的LDA模型是一种无监督模型,然而文本数据中不仅存在文档词一种信息,同时还存在文档标记、作者等内容,这无疑增大了文本分析和特征提取的难度,但如果模型能够科学有效的分析和利用这些信息,那么模型的数据拟合能力将会进一步的提升。因此本文及机器学习领域学者研究的一个重点内容为如何构建能够利用文本标记信息的有监督概率主题模型。
目前提出的概率主题模型大多是基于有向图模型的贝叶斯层次模型,这使得模型不仅存在参数估计困难的问题,同时无法对文本数据进行有效的分布式表示。而无向图模型例如受限玻尔兹曼机(Restricted Bolzmann Machine,RBM)具有较好的分布式特征提取能力,已经被广泛应用于图像、语音数据的预处理中。近年来已有基于RBM的分布式文本主题特征提取模型被提出,且取得了良好的效果。本文研究的另一个重要内容为通过利用文本标记信息来提升基于RBM分布式主题提取模型的数据拟合能力。
本文的主要工作和创新点如下:
1.研究了LDA模型主题与文本标记的映射关系,提出了一种基于共享背景主题的监督Labeled LDA模型,并且通过实验证明了本文提出的模型具有优良的主题提取能力和文本多标记判别能力。
2.通过对经典的DSTM和USTM监督主题模型的研究,提出一种能够有效利用文本作者和引用文献信息的监督LDA模型,该模型能够有效利用作者和引用文献两种信息,进而有效提升LDA模型在学术搜索中作者判定和引用文献排序能力。
3.通过对受限玻尔兹曼机的研究,提出一种基于受限玻尔兹曼机的分布式主题特征提取模型,该模型具有优于标准LDA模型的特征提取能力,同时通过将提取到的特征用于文本多标记分类任务中证明本文提出模型提取的特征能够有效提升多标记判别的准确性。