基于最大熵模型的中文命名实体识别
【摘要】:本文主要研究以人名、地名和组织机构名的识别为核心内容的命名实体识别,并对实体的识别方法进行了设计实现。本文主要工作和特点如下:
1、以最大熵为基本框架,基于标注语料库,在不使用人工词典的情况下建立最大熵语言模型。利用局部最优解码算法和动态规划的全局最优解码算法,在字一级实现了人名、地名识别,在词一级实现了组织机构名识别。
2、就最大熵模型的解码问题提出了一种树-栅格解码算法。该算法的优点在于,它可以在随文本长度线性增长的时间复杂度内得到全局最优解和最优N解;能够判断相邻状态是否合法,解决了行动序列(标注结果)中潜在的冲突问题。
3、为了进一步提高模型性能,本文尝试了不同的特征模板集,并给出了对比的数据。实验结果表明,在训练语料集相对较小的情况下,基于最大熵模型的命名实体识别能够获得较为满意的性能。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|