基于嵌入模型的知识图谱补全
【摘要】:知识图谱是三元组的集合,其中三元组的形式是(主语,谓词,宾语),主语和宾语是实体,谓词是关系。每个三元组(例如(奥巴马,出生地,檀香山))表示一个事实。当被应用于问答系统中时,只有当一个知识图谱覆盖了问答所对应的事实,它才能够提供所需要的答案。尽管已经有多个大规模、开放领域的知识图谱问世,它们距离完备仍然有很远的距离,例如Freebase中有30%的人物实体缺少记录他们父母亲信息的三元组。知识图谱补全就是向一个已有的知识图谱中增加新的三元组,且加入的三元组必须是客观事实。主要有两个渠道的信息可以用于补全知识图谱:1.从一个知识图谱已有的三元组来推理新的三元组。2.从文本中抽取新的实体和新的三元组。为了利用第一个渠道的信息,近年涌现了大量知识图谱嵌入方面的工作,它们为每个实体学习一个稠密的向量表示,同时基于实体的向量表示计算每个三元组的可信度。这些嵌入模型能被用于推理信息抽取模型从文本中抽取得到的三元组。由于上述两个渠道是互补的,所以合并嵌入模型与信息抽取模型能够表现出较之单一模型更好的性能。我们将现有知识图谱嵌入模型存在的弱点以及将其与信息抽取模型合并所存在的挑战总结如下:1.业界领先的知识图谱嵌入模型—TransE不能妥善地处理具有自反或者一对多/多对一/多对多性质的关系。2.在训练一个知识图谱嵌入模型时,现有的负采样算法有可能产生假阴性样本。3.对于从文本中抽取的三元组,其主语和宾语是词。如果这个三元组的主语或宾语无法链接至所考虑的知识图谱中的某个实体,现有的嵌入模型因为缺少实体的向量表示进行计算,无法对其进行推理。在本文中,我们提出一系列技术去解决上述问题。本文的主要贡献包括:1.我们表明了上述首个问题源自于Trans E将每种关系建模成对于实体向量的平移操作。于是,我们提出一个新的知识图谱嵌入模型Trans H。该模型通过在进行平移操作之前首先将实体向量投影至为每种关系定义的超平面,解决了Trans E存在的上述弱点。同时,Trans H避免了增加过多模型复杂度。2.我们提出了一个数据驱动的、每种关系独有的分布,用于采样负例来训练知识图谱嵌入模型。该分布能减少抽样到假阴性样本的机会。同时,该分布的参数可以由每种关系的基本统计量确定。3.我们首先表明,在词嵌入模型—Word2Vec中,词之间的隐式关系可以被解释成对于词向量的平移操作,类似于Trans E对于知识图谱中关系的建模。基于此,我们提出了一个联合嵌入模型,去为每个实体和每个词都学习一个稠密的向量表示。我们的联合嵌入模型能够为同时涉及词和实体的三元组计算可信度。据我们所知,我们的联合嵌入模型是能够处理此类三元组的首个方法。4.我们提出三个分别基于实体链接,实体名称,实体描述的对齐模型。用于训练这些模型的监督信息都易于获取且是规模大的。经验性评估显示,这些模型能有效将词被嵌入的向量空间与实体被嵌入的向量空间所对齐。我们做了大量的实验去比较提出的模型与基准方法。实验结果表明,我们的方法在性能上优于业界领先的方法,而且更为细致的实验结果分析肯定了我们提出模型的动机。