基于混合统计模型的汉语命名实体识别方法的研究与实现
【摘要】:命名实体识别技术,即把文本中出现的专有名称和有意义的数量短语识别出来并加以归类。自95年在MUC-6(Message Understanding Conference)会议上首次提出以来,命名实体识别越来越受到自然语言处理研究者的关注,成为很多应用中的关键技术,例如信息检索、信息抽取、问题回答以及机器翻译等。同时它也是自然语言预处理词法分析阶段的一个长期以来亟待解决的问题。
目前为止,命名实体识别技术在很多语言中都有研究。在英语等西方语言体系中已经做了相当多的工作,取得了很大的进步,并且在实际应用中也有很好的效果。但是对于东方语言体系而言,命名实体识别技术还处在一个不成熟的阶段,这不仅在于技术本身的限制,具体语言的复杂性和多元性也是一个至关重要的因素。
命名实体识别技术研究领域主要经历了两类研究方法:基于规则的方法和基于统计的方法。基于规则的方法主观性较强,对专家知识获取比较依赖。基于统计的方法客观性较强,但是统计方法的正确性和统计源的可靠性对其影响较大。两种方法各有优缺点。
本文分析了多种语言的命名实体识别技术,提出一种混合统计模型结合语言知识的方法,即隐马尔可夫模型和最大熵模型相结合,并使用语言知识进行约束,对汉语中的命名实体进行识别。这些知识主要包括集合类知识和使用频次信息两类,其中命名实体识别主要使用前者,过滤过程主要使用后者。集合类知识包括了词性词典和命名实体特征词等,不同集合间的区别主要在其包含的知识对识别和标注所起的作用。频次信息主要是考虑不同的字词在命名实体中使用的频次不同,从而其构成命名实体的概率也会不同。隐马尔可夫模型从整个句子范围进行约束,完成命名实体识别和词性标注工作;最大熵模型,作为一个子模型,计算句子中候选实体词(未登录词)的观察值概率,用于隐马尔可夫模型Viterbi算法搜索最佳的句子标注序列。本文识别内容主要分为两类:一是实体词识别,包括人名、地名和组织名的识别,这部分是本文的主要部分;二是数词和时间词识别,在识别第一部分实体词的基础和框架上完成。从实验结果来看,取得了较好的识别效果。目前,该实验系统还处在初级阶段,不少工作还有待进一步完善,比如最大熵模型特征的扩充和完善,语言知识和规则的扩充都需要从大规模的真实语料中提取。在今后的工作中,我们将深入研究最大熵模型的特征选取和参数训练问题,进一步提高命名实体识别的效果。