基于规则的命名实体识别研究
【摘要】:
中文分词是自然语言处理的第一步。在实际应用中,分词受到诸多因素的制约,未登录词的切分就是影响分词正确率的重要因素之一。未登录词主要的形式包括人名,地名,机构名等命名实体。因此,将命名实体的识别融合到中文分词的过程中,对提高中文分词的准确率起着重要作用。另外,命名实体识别的研究对于信息抽取、信息检索、机器翻译、文本分类等应用系统的实现具有重要的理论意义和实践价值。
本文的主要研究内容如下:
(1)提出了融合命名实体识别的中文分词模型,在分词的过程中同时进行命名实体的识别,减少了因为命名实体等未登录词的识别错误而引起的中文词法切分错误,从而提高了分词的准确率。
(2)基于本体构建中文人名知识库的层次分类体系,将中文人名领域的知识分成若干个层次,低层次的领域知识是高层次的基础,高层次的领域知识是低层次的概括和总结,有效提高了人名知识库的可维护性。
(3)构建命名实体识别的规则库,采用规则匹配的方法识别命名实体。识别系统具有自学习的能力,在识别命名实体的同时可以分析识别结果生成新的规则反馈给规则库,具有较好的命名实体识别的效果。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|