基于组合分类器的生物命名实体识别
【摘要】:
生物命名实体识别是一项非常重要和基础的生物医学文本挖掘技术,也是很关键的一个步骤,只有正确地识别出生物命名实体,才能有效地完成基因标准化、生物事件抽取以及蛋白质-蛋白质交互关系抽取等更加复杂的工作。生物医学命名实体包括蛋白质、基因、DNA、RNA等,通常有着复杂的结构,对于这些实体的鉴别和分类是非常富有挑战性的。机器学习方法例如CRF、MEMM和SVM已经广泛的应用于从已标注的语料中学习识别出生物医学命名实体。然而,生物命名实体识别系统的性能仍然没有普通命名实体识别系统的好。为了进一步提高生物命名实体识别的性能,研究者提出了合并多个分类器结果的多分类器方法。
本文主要研究基于组合分类器的生物命名实体识别方法,实验是在BioCreAtIvE 2GM的训练语料和测试语料上进行的。本文主要工作包括以下两点:
(1)构建单一分类器模型
本文利用不同的分类模型、不同的分类方法和特征集构建了六个不同的机器学习模型,并对每种模型采用的特征集,特征抽取方法,以及训练过程进行了详细介绍。
为了进一步提高最大熵方法的识别性能,本文采用TBL方法对最大熵的标注结果进行了纠错处理。实验结果显示纠错处理在很大程度上提高了最大熵方法的识别性能。
(2)基于组合分类器的生物命名实体识别
分别采用了简单集合运算(如并集、交集等)、投票和叠加归纳三种策略对六个模型的识别结果进行组合。实验结果表明:组合分类器方法的识别性能好于单个分类器的识别性能;并不是参与组合的分类器的个数越多越好,组合分类器的识别性能依赖于单个分类器的性能和参与组合的分类器之间的差异性;基于两层叠加式的组合分类器的方法比集合运算以及投票法的性能好,最终获得了88.14%的F值,性能超过了当时参加BioCreAtIvE 2 GM比赛任务第一名的系统。