收藏本站
《中央民族大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于蒙古文语料库的人名自动识别

通拉嘎  
【摘要】:蒙古文人名的自动识别是命名实体识别的子任务之一。 中、英文信息处理经历了半个世纪的发展,在基础资源的建设、词性标注、信息检索、文本分类、机器翻译、语言识别与合成、人机对话等领域都取得非常大的发展,中、英文信息处理的现代化发展,对国内少数民族语言信息处理的理论与技术发展也起到了深刻的促进作用。 与中、英文信息处理相比,蒙古文信息处理虽然起步稍晚,但也取得了少数民族信息处理领域的辉煌成就。蒙古文信息处理已初步完成了字、词处理阶段,现已进入句处理阶段,蒙古文信息处理已完成短语结构关系识别、短语边界界定等浅层句法分析任务,正向深层句法分析迈进,蒙古文信息检索、自动文摘、文本分类、机器翻译的研究也方兴未艾。 蒙古文词法分析与标注对短语、句法、语义、篇章的研究具有重要意义,不过作为基础环节的词法分析与标注,在未登录词,尤其是命名实体的识别研究未能繁荣发展。命名实体识别上的欠缺始终影响着词法分析的精度,并进而影响短语分析、句法分析、信息检索、机器翻译等领域的发展。 专有名词是语料库的重要组成部分,专有名词识别技术的突破是提高蒙古文词法分析正确率及其他后续工作的重要基础,歧义和未登录词的识别是影响切分精度的两大障碍,未登录词包括新词和人名、地名等命名实体。本文作为蒙古文人名自动识别的研究成果,涉及普通人名及兼类人名的识别,因而我们的研究具有相当高的学术价值及应用价值。 蒙古文本中人名数量众多,兼类现象较为普遍,研究蒙古人名的论述较少,尚无太多现成的理论与技术可供参考,因而蒙古文人名识别遇到很多难题,主要表现在: ☆人名是开放集合,无法采取穷举方法。蒙古族人名兼类现象较为严重,越普通的词,成为人名的现象也越普遍,名词、动词、形容词、数词、时间词、副词、代词、模拟词都能成为人名,这给人名识别带来很大困难。 ☆蒙古文深加工语料库规模比起中、英文规模尚小,这必定影响到统计方法的运用。目前内蒙古大学已储备了200万词规模深加工语料库,而我们使用26万词规模语料库,语料库的规模使规则提取及机器学习受到一定限制。 ☆专有名词的识别一直是蒙古文词法分析与标注的难点问题,但人名易与地名及其他专有名词兼类,因而专有名词之间的兼类问题也是困扰我们的难点问题。 本文采用了最大熵的统计方法识别蒙古文人名,在传统的规则为主的研究基础上,将最大熵的数学模型成功应用于蒙古文命名实体的识别当中,实现了蒙古文人名自动识别系统。本文的创新和贡献主要体现在: ◇首次建立了蒙古文人名识别语料库 目前,蒙古文语料库已具备了一定的规模,这对蒙古文信息处理的繁荣发展起到良好的推动作用。不过迄今为止,国内外还没有建立专门面向蒙古文人名识别的语料库,我们从网络抓取5773个蒙古文人名句,与内蒙古大学的语料库一同训练识别模型,测试自动识别的结果,有效补充了语料库缺乏带来的缺憾。 ◇系统研究了蒙古族人名的内外部结构 我们深入分析了蒙古人名的民族特征、时代特征、地域特征、性别特征,深入总结了蒙古文人名的内部组成模式,对蒙古族人名的结构类型及特点,对蒙古族特有的蒙古姓氏及其来源进行解读。 ◇提出了蒙古文语料库标注及转写规范 我们在对蒙古文语料库的标注现状进行分析的基础上,提出了,“语料库用现代蒙古语标注规范”,并针对汉语人名标注的诸多问题,以蒙古文标注外来词的固定习惯为基础,以《现代蒙古语语料库标注规范》为参考,提出了详尽的“汉语人名的拉丁转写方案”。 ◇建立人名识别的知识库 我们为自动识别蒙古文人名,建立了包括“汉语姓氏词典、蒙古姓氏词典、蒙古族普通人名词典、汉语姓氏拉丁映射表、汉语人名拉丁映射表、梵藏满人名词典、著名人物词典、人名指示词库、地名词典、地名后缀词典、机构名后缀词典”等词典或映射表的普通人名知识库,建立了包含“兼类人名词典、兼类词搭配词典、蒙古人名词干词典”等知识的兼类人名知识库。 ◇设计并实现了蒙古文人名自动识别系统 实验证明,作为国内外在蒙古文命名实体识别中较早运用统计方法的学术成果,本研究封闭测试的正确率94.56%,召回率85.15%,F值89.61%,取得了较为满意的识别效果。
【学位授予单位】:中央民族大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:H212;H087

【参考文献】
中国期刊全文数据库 前10条
1 齐心;蒙古人名论析[J];解放军外语学院学报;1998年05期
2 胡冠龙;张建;李淼;;改进的基于转换方法的拉丁蒙文词性标注[J];计算机应用;2007年04期
3 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
4 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范(续)[J];中文信息学报;2002年06期
5 罗智勇,宋柔;一种基于可信度的人名识别方法[J];中文信息学报;2005年03期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
7 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期
8 小林高四郎;乌恩;;蒙古族的姓氏和亲属称谓[J];蒙古学资料与情报;1987年01期
9 H·赞巴拉苏荣;白永寿;;蒙古人的藏语名[J];蒙古学资料与情报;1988年03期
10 侯宏旭;刘群;那顺乌日图;牧仁高娃;李锦涛;;基于统计语言模型的蒙古文词切分[J];模式识别与人工智能;2009年01期
中国博士学位论文全文数据库 前4条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
2 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
3 雪艳;汉蒙词语对齐及相关技术研究[D];内蒙古大学;2009年
4 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 吴金星;蒙古语词法标注语料库的构建及相关技术研究[D];内蒙古大学;2011年
2 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
3 淑琴;《蒙古语语法信息词典构形附加成分分库》的设计与实现[D];内蒙古大学;2005年
4 乔永波;规则与统计相结合的中文命名实体识别[D];山东大学;2007年
5 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
6 格根塔娜;苏尼特左旗蒙古族人名研究[D];内蒙古大学;2007年
7 图雅;科尔沁蒙古族人名研究[D];内蒙古师范大学;2007年
8 赵琳瑛;基于隐马尔科夫模型的中文命名实体识别研究[D];西安电子科技大学;2008年
9 牧仁高娃;蒙古语语料库标注及相关对策研究[D];内蒙古大学;2008年
10 萨楚日;鄂尔多斯蒙古族人名变化研究[D];内蒙古大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 庞可慧;姓氏读音与写法中的若干问题研究[J];安徽农业大学学报(社会科学版);2004年03期
2 高志胜;;现代汉语让步连词研究综述[J];安徽文学(下半月);2008年09期
3 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
4 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
5 张卫东;论19世纪中外文化交往中的汉语教学[J];北京大学学报(哲学社会科学版);2000年04期
6 金国泰;论专字的本质及成因[J];北华大学学报(社会科学版);2003年01期
7 岳辉;闫冰;;形容词性成语的语法结构及功能研究[J];北华大学学报(社会科学版);2006年05期
8 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
9 程勇,吴玺宏,迟惠生;汉语韵律边界定位与选音算法研究[J];北京大学学报(自然科学版);2004年03期
10 张立博;;HSK表人双音名词义项引申情况考察[J];北京市经济管理干部学院学报;2010年04期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄云;姜文斌;王志洋;祝捷;吕雅娟;刘群;;基于小规模俄汉双语词典的俄语形态切分[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 徐德宽;;现代汉语双宾构造中两个宾语的题元角色[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 俞士汶;朱学锋;段慧明;张化瑞;;以词义为主轴的综合型语言知识库[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
中国博士学位论文全文数据库 前10条
1 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
2 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
5 方清明;现代汉语名名复合形式的认知语义研究[D];暨南大学;2011年
6 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
7 富涛;面向信息处理的蒙古语简单谓动句句模研究[D];内蒙古大学;2011年
8 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
9 哈申格日乐;现代蒙古语常用亲属称谓词的语义分析[D];中央民族大学;2011年
10 朴锦海;汉韩频率副词对比研究[D];中央民族大学;2011年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 黄姗姗;系统功能理论视阈下的“X是X”结构研究[D];哈尔滨师范大学;2010年
3 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
4 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
5 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
6 丁熠;“契合”类语气副词研究[D];上海外国语大学;2010年
7 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
8 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
9 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
10 邬述法;《九章算术》虚词研究[D];江西师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱德熙 ,盧甲文 ,马真;关于动词形容词“名物化”的问题[J];北京大学学报(人文科学);1961年04期
2 陈一;张君;;汉语“广狭同形”词语的规范化问题[J];北方论丛;2006年02期
3 章辉;汉语姓名与汉民族文化心理特征[J];毕节师范高等专科学校学报(综合版);2005年02期
4 甘宇慧;词的同形异类现象是否等于兼类现象[J];浙江广播电视高等专科学校学报;2002年04期
5 郑燕萍;;论人名用字规律与社会和环境的关系[J];重庆科技学院学报;2006年06期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 丁信善;语料库语言学的发展及研究现状[J];当代语言学;1998年01期
8 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
9 刘晨曦;;21世纪初大学生人名研究[J];太原师范学院学报(社会科学版);2006年05期
10 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
中国重要会议论文全文数据库 前1条
1 华沙宝;巴达玛敖德斯尔;;蒙古语语料库建设现状分析和完善策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前6条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 朝格吉乐玛;“时”概念的蒙汉语对比研究[D];华东师范大学;2005年
3 额尔敦朝鲁;面向信息处理的蒙古语动词语义研究[D];内蒙古大学;2005年
4 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
5 雪艳;汉蒙词语对齐及相关技术研究[D];内蒙古大学;2009年
6 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
中国硕士学位论文全文数据库 前10条
1 吴芳;姓名的跨文化研究[D];广西大学;2002年
2 王雪霞;现代汉语双音同形词与词典编纂[D];河北师范大学;2002年
3 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
4 刘文涛;信息处理用同音同形词研究[D];山东师范大学;2003年
5 张志英;试论浦江人名的特点及其演变原因[D];上海师范大学;2004年
6 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
7 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
8 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年
9 张静亚;基于HMM的汉语连续数字语音识别[D];苏州大学;2005年
10 张建梅;蒙古文同形异音词的读音识别研究[D];内蒙古大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 冯志伟;语音的自动识别与合成[J];语文建设;1986年Z1期
2 冯敏萱,杨翠兰,陈小荷;“者”缀词识别[J];常州工学院学报(社科版);2005年03期
3 冯敏萱;杨翠兰;陈小荷;;带后缀“者”的派生词识别[J];语言文字应用;2006年02期
4 ;人物[J];物流技术与应用;2008年05期
5 胡金柱;吴锋文;李琼;舒江波;;汉语复句关系词库的建设及其利用[J];语言科学;2010年02期
6 李琼;;利用标点符号自动识别分句[J];皖西学院学报;2011年01期
7 杨平;;面向自然语言处理的会话行为分类研究[J];语言文字应用;2007年03期
8 方芳;;基于语料库的量名短语识别初探[J];乐山师范学院学报;2006年02期
9 尹蔚;罗进军;;从“是p,还是q”有标选择复句看合用型关系词的自动识别[J];中南大学学报(社会科学版);2007年06期
10 冯敏萱;;英语人名的汉译名平行识别[J];语言文字应用;2010年03期
中国重要会议论文全文数据库 前10条
1 杜青;刘剑飞;刘娟;乔延华;;基于小波神经网络的模拟调制信号自动识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(下册)[C];2007年
2 郑凯;张淑仪;张辉;蔡士杰;;超声红外热像中缺陷的自动识别[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 邹渊;;车号识别系统在非标车辆电子轨道衡中的应用[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
4 王立公;;热轧带钢头尾形状自动识别及最佳剪切系统[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(上册)[C];2002年
5 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 黄习刚;;AIS岸站数据链路管理机制[A];2008-2009年船舶通信导航论文集[C];2009年
7 毛文华;郑永军;张银桥;苑严伟;张小超;;基于机器视觉的草地蝗虫识别方法[A];2007年中国农业工程学会学术年会论文摘要集[C];2007年
8 冯敏萱;杨翠兰;陈小荷;;带后缀“者”的派生词识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘磊;高太长;李浩;;三种基于光学原理的降水类型识别技术[A];中国气象学会2006年年会“提高大气监测自动化水平、为业务技术体制改革作贡献”分会场论文集[C];2006年
10 廖铭胜;;浅谈AIS在VTS中的应用[A];中国航海学会通信导航专业委员会2006年学术年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 驻京记者 李扬;自动识别六种少数民族文字[N];文汇报;2007年
2 王萍;讯宝凯泰联手出击自动识别市场[N];中国税务报;2006年
3 欧汉华;广东启用新型自动识别仪[N];人民公安报·交通安全周刊;2006年
4 康君;“洋盘”哦 投币箱自动识别假币[N];雅安日报;2007年
5 通讯员 姚蓓记者 秦宵喊;表格自动识别为出口退税提速[N];南京日报;2008年
6 吴恂王彭军;广东局试点“电子耳标”自动识别[N];中国国门时报;2007年
7 记者 王量迪 通讯员 黄章伟 徐根凯;我市渔港将配上电子警察[N];宁波日报;2008年
8 吴宏雄;欠费车上路将被抓拍[N];福建日报;2008年
9 周淑芳;中州分公司计量检斤实现自动识别[N];中国有色金属报;2006年
10 史晓涵 赵永生 张军辉;河北乐亭民警自主研发抓逃软件[N];人民公安报;2009年
中国博士学位论文全文数据库 前10条
1 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年
2 严哲;三维地震断层自动识别与智能解释[D];中国地质大学;2010年
3 涂岳文;Holter系统中运动伪差自动识别的关键技术及算法研究[D];浙江大学;2013年
4 王保平;放顶煤过程中煤矸界面自动识别研究[D];山东大学;2012年
5 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
6 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
7 黄伏生;喇嘛甸油田低效无效循环带识别方法研究及其应用[D];中国海洋大学;2008年
8 郑华利;彩色地形图的自动识别与矢量化研究[D];南京理工大学;2004年
9 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
10 李河;基于构件复用的测井解释系统及成像测井图像处理与自动识别技术研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 敖登巴拉;蒙古文变形显现字符到名义字符转换的研究与实现[D];内蒙古大学;2010年
2 孟晓亮;产品命名实体识别研究[D];中国传媒大学;2009年
3 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 叶其松;NP构句块的模式化及自动识别[D];黑龙江大学;2004年
6 王立冬;软件无线电理论研究与软件无线电侦察接收机设计[D];东北大学;2006年
7 李茁;机车信号自动识别与解调算法研究[D];哈尔滨工程大学;2007年
8 于坤;织物疵点识别算法的研究[D];天津工业大学;2008年
9 邵蕊;指针式仪表识别方法的研究[D];沈阳工业大学;2009年
10 郭绍君;全球统一标识系统在食品冷链中的应用研究[D];北京交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026