基于Stacking框架的命名实体识别
【摘要】:
中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务,为了促进其他技术和应用的发展,命名实体识别一直是自然语言处理的研究热点之一。因此,研究中文命名实体的识别技术是很有意义,也是非常重要的。
针对现代汉语文本的特点,本文主要研究以人名、地名和机构名的识别为核心内容的中文命名实体识别问题。我们以SIGHAN竞赛的命名实体定义和评测标准为依据,利用基于Stacking框架的组合分类器来进行命名实体识别,结合局部特征和全局特征,对中文命名实体识别进行了实验。另外,在结合多种特征的同时,本文又加入了词列表信息来进一步提高实验系统的性能。
在本文中,我们详细介绍了Stacking框架的定义、模型结构、训练方法以及模型算法的选择等,提出了适合于各类中文命名实体的特征模板。在特征选择过程中为了不影响命名实体识别的精度并使其保证一定的独立性,我们并不选用分词和词性标注作为特征加入,而以字为单位进行特征选择。在应用了实体所在句子内部的局部特征基础上,利用了相同实体在同一语料中的其他共现来抽取有用的全局特征。本文将以上方法结合起来,进行中文命名实体识别,通过实验进行验证,取得了较好的效果,证明了其有效性。