收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语自动分词和中文人名识别技术研究

熊冬明  
【摘要】:汉语自动分词和命名实体识别是自然语言处理和计算语言学领域中的重要 内容,它的研究和实现具有重要的理论意义和实用价值。随着计算机对大量真实 文本处理的迫切需要,对分词和命名实体识别的要求也显得日益迫切,由于它的 研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信 息过滤等诸多领域的研究,因此,一直引起人们的关注。 同其它语言相比,汉语的自动分词和命名实体识别有其特有的难点。目前, 汉语自动分词和命名实体识别的处理结果还不尽如人意。本文对汉语自动分词和 作为命名实体识别子问题的中文人名识别这两个问题进行了研究,提出了统计方 法框架下汉语自动分词和中文人名识别模型。 具体的讲,本文做的主要工作是: 提出了一种将汉语分词、切分排歧、词性标注和人名识别完整集成的层次框 架。首先通过对文本中前位切分字和后位切分字的查找,将汉语自动分词问题归 约为对字段的切分问题。在粗切分阶段,基于N-best策略,将最大概率分词方 法产生的最佳N个结果作为候选集,作为下一阶段处理的评估对象,目的是尽 可能多的覆盖歧义字段,提高召回率。基于语言的词类具有相对稳定的分布这一 特征,我们结合了词的词性和词性间的搭配,应用HMM模型对N个粗分结果 进行评估,选取最优的一个结果作为分词的中间结果,中文人名的识别在这个中 间结果上进行。我们将构成人名的各个特征看作是一种词性,将其纳入整个词性 标注的过程中,利用HMM模型对分词的中间结果进行词性标注,最终在词性序 列中匹配出符合规则的中文人名。后续处理可得到最终的分词结果和词性标注序 列。 本模型层次分明,易于理解,实验表明,该模型也是一种行之有效的汉语分 词和中文人名识别方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
2 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
3 吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期
4 王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期
5 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
8 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
9 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
10 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
11 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
12 孙巍;;一种面向中文信息检索的汉语自动分词方法[J];现代图书情报技术;2006年07期
13 刘龙飞;陈斌;党荣;;基于CNET模型的无词典汉语自动分词算法研究[J];计算机应用与软件;2007年10期
14 陈斌;;基于数学设计的计算机自动分词算法[J];江西科学;2009年05期
15 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
16 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
17 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
18 周昌乐,秦莉娟;一种采用基于语境松弛算法的汉语分词排歧方法[J];厦门大学学报(自然科学版);2002年06期
19 熊回香;夏立新;;汉语分词技术综述[J];图书情报工作;2008年04期
20 王凡秀;王自强;;汉语自动分词技术研究[J];计算机与数字工程;2008年11期
中国重要会议论文全文数据库 前10条
1 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 庄丽;包塔;朱小燕;;盲人用计算机软件系统中的语音和自然语言处理技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 廉竹钧;;汉语组合型切分歧义字段消歧方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
10 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
2 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
2 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
3 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
4 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
5 胡可;基于人工免疫系统的信息过滤技术研究[D];西南交通大学;2006年
6 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
7 潘景剑;具有中文人名识别功能的汉语自动分词算法研究[D];河北工业大学;2006年
8 唐培丽;基于语义的汉语文本主题词提取算法研究与实现[D];吉林大学;2005年
9 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
10 杨治秋;专题搜索引擎关键技术的研究[D];燕山大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978