基于医疗知识图谱的探索式搜索研究
【摘要】:随着互联网、移动互联网的成熟与发展以及网络数据的爆炸式增长,如何从海量信息中快速、方便、准确的获取需要信息是一个具有挑战的问题。而目前主流搜索引擎的“查询-应答”式的一次性交互模式难以满足用户便捷探索知识的需求,为达到探索目的,用户不得不分析、理解查询结果,并修正关键词再次进行查询。这一过程效率较低,并且需要用户自身使用一定的搜索策略,才能达到预期的目的,因此导致用户体验较差。而这些搜索策略由搜索引擎通过一定算法实现,使其对于用户透明。另外,产业信息化的进程使得生物医学领域的各类信息资源都以数字化存储形式下来。其中蕴含的大量的信息为人类医学的进步提供了助力,但如何从中挖掘出关键信息,便于医学研究者利用好海量信息资源找到感兴趣的研究点也是亟待解决的问题。医学信息检索需要有医学背景知识,利用知识图谱将专家知识保留并加以处理,是将领域数据用好的一个途径。因此,本文针对上述的一些问题,做了如下几点创新性的工作:(1)为弥补一次性交互模式的不足,我们利用共现关系构建了语义图谱,将知识概念通过语义关系关联起来,方便用户快速浏览知识网络。另外,我们提出了一种新颖的基于图谱的挖掘多目标关联关系的探索式搜索算法,通过扁平化压缩图谱和逆扁平化解压图谱操作,能快速、有效的从图中搜索出多个目标之间有较强关联的节点和路径,以推测用户的搜索意图。并实验结果得到,我们提出的方法挖掘的关联关系较其他方法更好。(2)将医学文本作为研究对象,分别基于Medline引文数据和CT影像报告文本从不同关系粒度上构建了知识图谱,提出了一种相对共现关系具有更细粒度的基于CRF和规则推导的知识图谱构建方法。测试发现在不同粒度图谱中,挖掘出的实体之间关联关系在不同应用场景下都具有较好的效果。(3)构建了医疗信息的探索式搜索引擎的原型系统,我们在系统中采用了基于边的索引机制,便于关系集合的运算。并提出了一种高可扩展性的分布式关系抽取算法,提高系统计算吞吐,以适应海量数据需求。