基于条件随机场的中文命名实体识别
【摘要】:
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对命名实体识别的研究具有很大的实用意义。
本文针对现代汉语文本的特点,主要研究以人名、地名和组织名的识别为核心内容的中文命名实体识别问题,我们以一种较新型的统计模型--条件随机场为基本框架,设计并实现了一个中文命名实体识别系统。具体说来,本文的主要内容如下:
本文首先分析了命名实体识别的难点,人名、地名、组织名的相关语言学知识,并对现有的一些命名实体识别方法和中文命名实体识别系统进行了简要介绍。
接着,详细介绍了条件随机场的定义、模型结构、势函数、参数估计和训练方法、概率计算方法等。进一步地,将条件随机场模型应用于中文命名实体识别任务,提出了适合于各类中文命名实体的特征模板,并通过实验进行验证,确定了有效特征。
本文最后,实现了一个基于条件随机场的中文命名实体识别系统,系统采用了层叠结构,以模型训练模块和命名实体识别模块作为系统的核心组成部分,在低层条件随机场模型中进行人名、简单地名以及简单组织名的识别,低层的识别结果传递到高层模型,再进行复合地名与复合组织名的识别。实验结果表明,基于条件随机场的中文命名实体识别系统能够获得较为满意的效果,在对2004年863中文命名实体识别评测语料的开放测试中,系统识别的精确率、召回率和F值分别为82.50%、76.04%和79.14%。