基于生物医学领域知识增强的实体识别和关系抽取研究
【摘要】:各类医学文献,包括临床记录、论文研究等,数据急剧增长。以Pub Med数据库为例,其中收录的文献数量每年以指数级的速度增长。研究者需要一直跟进自己领域的研究动态,临床医生能获得的病人的生理和遗传数据会越来越多,如何能快速地从非结构化文本中获取结构化易于查询和关联的数据成为了生命科学研究和精准医学的热点和难点。使用自然语言处理技术处理生物医学文献的历史由来已久。然而当前对于生物医学领域的实体识别和关系抽取的研究仍存在着很多问题:(1)缺少连通的多实体关系类型的知识库;(2)生物医学术语存在重复有歧义的缩写,缺少先验知识识别一些没有明显语义关系的实体对;(3)缺少一站式的生物医学知识挖掘平台。基于上述问题,本文从构建知识图谱和使用该知识图谱进行知识增强的预训练等方面深入研究。本文的主要工作和贡献总结如下:对于缺少连通的多实体关系类型的知识图谱的问题,本文工作主要是整合17个高质量的生命科学数据库,并将它们规范化。并且提出一个针对生物医学知识图谱特性的实体对齐模型MAGNN,使用本文构造的实体对齐数据集验证了算法的有效性。最终得到一个含有8类实体节点和17种相互作用关系边的知识图谱,总共含有108047个节点和4469414条边。其中实体类型包括基因、表型、疾病、药物、通路、细胞组成、生化反应和分子功能。对于生物医学术语存在重复有歧义的缩写,存在一些没有明显语义关系的问题。本文工作主要关注使用知识增强来提高预训练语言模型的上下文编码能力,从而提升命名实体识别和关系抽取的效果。本文提出了一个根据预训练语料从知识图谱中生成子图并将图上下文注入预训练的方法BMKG-BERT。实验证明BMKG-BERT模型在命名实体任务中,在全部八个数据集上均优于当前所有的基准模型。在关系抽取任务中在全部三个数据集上的结果都超过了当前所有的基准模型。证明了知识图谱增强的语言模型在命名实体识别和关系抽取上的巨大潜力。对于缺少一站式的生物医学知识挖掘平台的问题,本文设计并实现了一个生物医学文献结构化系统。将本文构建的生物医学知识图谱和提出的知识增强预训练语言模型应用于该系统。这样一个融合了多个生命科学数据库,实时更新生物医学文献的平台,不仅为生物医学科学研究提供参考而且还是临床精准医疗的基石。综上所述,本文针对生物医学领域知识挖掘方面存在的问题在构建知识图谱、知识增强的预训练语言模型等方向上进行了研究探索,并在多个公开数据集上验证了本文方法的有效性。