汉语自动分词和中文人名识别技术研究
【摘要】:汉语自动分词和命名实体识别是自然语言处理和计算语言学领域中的重要
内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实
文本处理的迫切需要,对分词和命名实体识别的要求也显得日益迫切,由于它的
研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信
息过滤等诸多领域的研究,因此,一直引起人们的关注。
同其它语言相比,汉语的自动分词和命名实体识别有其特有的难点。目前,
汉语自动分词和命名实体识别的处理结果还不尽如人意。本文对汉语自动分词和
作为命名实体识别子问题的中文人名识别这两个问题进行了研究,提出了统计方
法框架下汉语自动分词和中文人名识别模型。
具体的讲,本文做的主要工作是:
提出了一种将汉语分词、切分排歧、词性标注和人名识别完整集成的层次框
架。首先通过对文本中前位切分字和后位切分字的查找,将汉语自动分词问题归
约为对字段的切分问题。在粗切分阶段,基于N-best策略,将最大概率分词方
法产生的最佳N个结果作为候选集,作为下一阶段处理的评估对象,目的是尽
可能多的覆盖歧义字段,提高召回率。基于语言的词类具有相对稳定的分布这一
特征,我们结合了词的词性和词性间的搭配,应用HMM模型对N个粗分结果
进行评估,选取最优的一个结果作为分词的中间结果,中文人名的识别在这个中
间结果上进行。我们将构成人名的各个特征看作是一种词性,将其纳入整个词性
标注的过程中,利用HMM模型对分词的中间结果进行词性标注,最终在词性序
列中匹配出符合规则的中文人名。后续处理可得到最终的分词结果和词性标注序
列。
本模型层次分明,易于理解,实验表明,该模型也是一种行之有效的汉语分
词和中文人名识别方法。
|
|
|
|
1 |
王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期 |
2 |
蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期 |
3 |
吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期 |
4 |
王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期 |
5 |
殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期 |
6 |
刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期 |
7 |
陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期 |
8 |
梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期 |
9 |
文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期 |
10 |
邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期 |
11 |
高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期 |
12 |
孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期 |
13 |
刘龙飞;陈斌;党荣;;基于CNET模型的无词典汉语自动分词算法研究[J];计算机应用与软件;2007年10期 |
14 |
陈斌;;基于数学设计的计算机自动分词算法[J];江西科学;2009年05期 |
15 |
孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期 |
16 |
刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期 |
17 |
孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期 |
18 |
周昌乐,秦莉娟;一种采用基于语境松弛算法的汉语分词排歧方法[J];厦门大学学报(自然科学版);2002年06期 |
19 |
熊回香;夏立新;;汉语分词技术综述[J];图书情报工作;2008年04期 |
20 |
王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期 |
|