收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文姓名自动识别技术研究

胡业江  
【摘要】:汉语自动分词是中文信息处理的基础工程,中文姓名的自动识别则是汉语自动分词的难点之一,已经成为制约自动分词系统准确率的一大瓶颈。本文突破传统的规则与统计相结合的识别方法而提出了一种基于隐马尔可夫模型的姓名识别方法。 文章首先分析了中文姓名的结构特征及其在真实文本中出现的复杂情况,然后总结出不同的词在构成一个中文姓名时所担当的作用各有不同,由此提出姓名构成角色和姓名识别模式集两个概念;接着推导了一个重要结论:对初步分词之后的句子片段进行角色标注的过程实质上是一个一阶隐马尔可夫链:于是用隐马尔可夫模型的解码算法Viterbi算法来计算最优的角色标注序列。得到最优的角色序列后,再用姓名识别模式集进行简单的完全模式匹配,从而最终识别出中文姓名。该方法的实用性还在于:整个姓名识别过程只需用到某个词作为特定角色的概率以及各角色之间的转移概率,并且这些角色信息完全可以从真实语料库中自动抽取得到,无需人工总结。 通过对大规模真实语料的封闭与开放测试,该方法取得了90%以上的召回率和满意的准确率。实验表明:基于隐马尔可夫模型的姓名识别算法行之有效。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈志鑫,郭华伟;基于TMS320C54×DSP的实时语音识别系统[J];半导体技术;2001年04期
2 赵力,邹采荣,吴镇扬;基于分段模糊聚类算法的VQ-HMM语音识别模型参数估计[J];电路与系统学报;2002年03期
3 陈锴,柴佩琪;提高英语语音语料库自动切分准确性的方法[J];微电子学与计算机;2004年05期
4 徐进鸿,邵品洪,李明霞;情报检索数学模型及若干技术进展[J];现代图书情报技术;1990年03期
5 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
6 王彩荣;汉语自动分词专家系统的设计与实现[J];微处理机;2004年03期
7 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
8 王彩荣,李晓毅,黄玉基;汉语自动分词系统的评价[J];微处理机;2003年05期
9 徐华中;徐刚;;一种新的汉语自动分词算法的研究和应用[J];计算机与数字工程;2006年02期
10 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期
11 黄昌宁;自动分词[J];语言文字应用;1997年01期
12 冯长建,丁启全,吴昭同,童进;SOFM和HMM在旋转机械升降速全过程故障诊断中的应用[J];上海海运学院学报;2001年03期
13 赵力,邹采荣,吴镇扬;基于FVQ/HMM的无教师说话人自适应[J];电子学报;2002年07期
14 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
15 温锐,朱巧明,李培峰;HMM和负反馈模型在词性标注中的应用[J];苏州大学学报(自然科学版);2005年03期
16 王巍;;基于Perl的汉语自动分词算法研究[J];中州大学学报;2007年01期
17 罗洋;;汉语自动分词方法的综述[J];科技信息;2009年07期
18 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
19 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
20 章森,宗成庆,陈肇雄,黄河燕;语句拼音-汉字转换的智能处理机制分析[J];中文信息学报;1998年02期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 周正娟;严勤;;基于HMM的广州、重庆、上海和厦门带口音普通话韵母共振峰分析[A];第九届中国语音学学术会议论文集[C];2010年
6 江源;朱双华;凌震华;戴礼荣;;基于HMM的单元挑选语音合成中的改进方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 那兴宇;谢湘;匡镜明;何娅玲;;用于统计语音合成的大尺度压缩HMM的方法[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
8 那兴宇;谢湘;匡镜明;何娅玲;;一种用于统计语音合成的大尺度压缩HMM的方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
9 高璐;于洪志;蔡莲红;张金爽;郑文思;;基于HMM的藏语语音合成系统中标注体系的构建[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前8条
1 段江娇;基于模型的时间序列数据挖掘[D];复旦大学;2008年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 李超雷;交互式语言学习系统中的发音质量客观评价方法研究[D];中国科学院研究生院(电子学研究所);2007年
5 雷杰;网络安全威胁与态势评估方法研究[D];华中科技大学;2008年
6 李虹;基于机器视觉路面状态识别关键技术研究[D];吉林大学;2009年
7 孔德光;结合语义的统计机器学习方法在代码安全中应用研究[D];中国科学技术大学;2010年
8 王维;虚拟人运动规划与运动合成关键技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
2 聂军;基于HMM可训练的汉语语音合成系统[D];吉林大学;2010年
3 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
4 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
5 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
6 郑杰生;基于HMM的网络短评情感信息抽取[D];华南理工大学;2011年
7 苗成凯;基于HMM的基因表达数据聚类分析算法研究[D];吉林大学;2010年
8 阳攀;可视化HMM抗性基因建模研究[D];哈尔滨工业大学;2011年
9 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
10 陈芳;基于HMM模型的启动子预测系统的设计与实现[D];兰州大学;2010年
中国重要报纸全文数据库 前6条
1 王萍;Web文本的知识化管理[N];计算机世界;2006年
2 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
3 钟远;航运快递[N];国际商报;2000年
4 田梦;软件篇软件只是工具[N];计算机世界;2007年
5 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
6 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978