生物医学文献中的隐含知识发现方法研究
【摘要】:生物医学文献是目前最重要的生物医学领域资源。随着生物医学领域研究的发展,生物医学文献的数量不断的增长。如何充分地挖掘这些海量的文献,从中发现新的生物医学知识对生命科学研究领域有重要的意义。隐含知识发现(Literature Based Discovery)方法主要研究如何从已发表的生物医学文献中挖掘出新的知识,该方法已有效地应用到药物发现、药物副作用预测和药物作用机制等研究领域。本文在前人的研究基础上,研究如何从生物医学文献中发现隐含的生物医学知识。对于给定的生物医学文献集合,目前主要有基于ABC框架和基于AnC框架两种类型的隐含知识发现方法,从中挖掘隐含的生物医学知识。基于目前隐含知识发现方法的两种模型,本文主要做了以下三方面的工作:(1)提出了新的基于ABC框架的隐含知识发现方法。ABC框架是目前使用最广泛的隐含知识发现模型,该模型主要通过单一共现的中间物质推理出间接相连的药物和疾病的关系。基于ABC框架的隐含知识发现方法具有简单高效、可解释性强的优点。其中基于发现模板的方法是目前该类方法中准确率最高的方法。该方法通过领域专家定义的发现模板进行隐含知识发现。定义好的发现模板能够较好的提高隐含知识发现的性能,但由于发现模板需要人工定义,因此该方法的泛化能力较弱。本文在发现模板方法的基础上提出一种强化语义发现模板的隐含知识发现方法。该方法通过半监督学习得到抽取不同类型语义关系的抽取模型,再通过语义关系抽取模型构成增强语义发现模板进行隐含知识发现。本文提出的方法解决了传统发现模板方法依赖关系抽取工具且需要人工参与的问题,实验结果表明本文提出的基于ABC框架的增强语义发现模板方法在不同的隐含知识发现任务中都取得了较好的性能。(2)提出了新的基于AnC框架的隐含知识发现方法。基于AnC框架的方法可以挖掘药物和疾病间复杂的隐含关系,但目前该类方法主要用于解释已知存在作用关系的药物和疾病间的联系,而无法发现给定疾病的潜在治疗药物。针对这一问题,本文做了以下两方面工作:一方面本文提出了一种基于知识图谱语义分布的隐含知识发现方法。该方法首先构造了多领域的生物医学知识图谱,再利用知识图谱中实体的语义分布进行隐含知识发现。该方法适用于不同类型的隐含知识发现任务,对于给定疾病,该方法不但可以发现其候选治疗药物并且能给出相应的药物作用靶标。另一方面的工作是在前文已构造好的知识图谱的基础上,提出了基于图嵌入与深度学习的隐含知识发现方法。该方法提出了将隐含知识发现问题当作药物疾病序列数据预测问题处理,解决了基于知识图谱语义分布方法无法详细描述药物作用疾病关系的问题。实验结果表明,本部分工作提出的基于AnC框架的方法提升了经典AnC框架方法的性能,并且本文方法适用于不同的隐含知识发现任务。(3)提出了一种针对隐含知识发现的文献选择方法。本文分析了文献选择对隐含知识发现方法性能的影响。现有的隐含知识发现方法主要关注于如何从给定的生物医学文献集合中挖掘出隐含的知识,而不考虑如何得到该文献集合或者如何选择待挖掘的文献集合能更好地提高隐含知识发现方法的效果。本文提出了一种基于逻辑主题路径的文献选择方法,该方法通过文献间的主题分布关系进行文献过滤,最终选择少量和疾病、药物相关的生物医学文献做进一步知识发现。实验结果表明,本文方法可以有效的选择少量的高度相关文献作进一步研究,从而提高了隐含知识发现的准确率。