收藏本站
《内蒙古大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

汉蒙词语对齐及相关技术研究

雪艳  
【摘要】: 汉蒙平行语料库是包含汉语和蒙古语两种语言互译文本的语料库,它是蒙古文信息处理数据资源的重要组成部分。汉蒙平行语料库在语言的多个层面上呈现汉语和蒙古语的互译对照信息,能够为汉蒙机器翻译或者其他与汉蒙双语相关的信息处理提供强有力的支持。 汉蒙平行语料库的建设中,最关键的技术是“对齐”。所谓对齐,就是从源文和译文文本中找出互为翻译的片断。由于互译片段的粒度不尽相同,因此有篇章、段落、句子、短语以及词等不同级别的对齐。许多与双语处理相关的应用,如统计机器翻译、基于实例的机器翻译、词义消歧、双语词典编纂等,都要求以经过词语对齐的平行语料库作为依托。 目前,汉蒙平行语料库的大部分数据是通过手工录入的方式收集起来的。录入过程中,我们按照“句对”的格式对语料进行了整理。因此,至少现阶段,汉蒙平行语料库的加工不涉及篇章、段落或者句子级别的对齐任务。如何在汉蒙句对上,进一步寻找汉蒙词语之间的对应关系,是本篇论文的重点研究内容。 现在虽然有词语对齐开源软件(如,GIZA++)可供使用,但这一类基于纯统计学方法的工具通常只有在超大规模语料库上才能取得令人满意的效果。对于像汉蒙平行语料库这样规模偏小的资源,我们主张使用“基于知识”的方法来实现词语对齐。 本文在借鉴和吸收前人研究成果的基础上,结合蒙古文信息处理的资源现状,提出了一种知识密集型(Knowledge Intensive)的汉蒙词语对齐方法。该方法的主旨是以“基于双语词典的Greedy算法”作为基本框架,通过在此框架内引入多种外部知识和信息,如蒙古语同义词知识、蒙古语词法知识、蒙古语连续多词单元的标注信息、汉蒙数词到阿拉伯数字的转换信息以及汉语介词与蒙古语“格”的对应规则等,逐步提高对齐的召回率和准确率。就这些知识(或信息)的获取方法及它们在汉蒙词语对齐中的作用,本文的研究包括如下几个方面: (1)提出利用蒙古语《类语辞典》中的同义词知识对汉蒙双语词典进行扩充,为汉蒙词语对齐提供更多的翻译选项。 (2)利用一个基于词典和规则的方法对蒙古语文本进行词法分析和标注,为汉蒙词语的相似度计算提供蒙古语词干信息。 (3)提出一种基于同现频率和词类信息的蒙古语连续多词单元的抽取方法,结合语言学家的内省判断构造出一个有效的词表,并以该词表作为依据,对蒙古语文本中的连续多词单元进行捆绑标注。这一标注信息能够帮助汉蒙词语对齐系统返回一部分“l:n”模式的对齐连接。 (4)提出一种将汉蒙数词转换成阿拉伯数字的方法,目的是以阿拉伯数字作为中介,得到汉蒙数词的对齐。 (5)基于汉语介词和蒙古语“格”之间的对应规律,提出一种局部启发式算法,以实现汉语“介词+名词(或代词)”结构与蒙古语格变化词形之间的“2:1”模式的对齐。 另外,我们通过对大量汉蒙词语人工对齐结果及相关笔记进行比较和研究,发现人工词语对齐中存在相当程度的“主观性”因素。本文以当前汉蒙词语对齐系统的评价为主要目标,提出并制定了“汉蒙词语人工对齐规范”,为建立“标准对齐连接”提供操作细则。 实验部分,采用召回率、正确率和F值作为评价方法,在三类测试集(日常用语、政府文献、小说)上进行了一系列的实验和考察,总结出各种语言学知识对词语对齐的影响。实验结果表明,通过在基于词典和dislocation的基本框架内综合引用多种语言学知识,系统能够在“汉蒙日常用语”测试集上取得相对最好的成绩,召回率为0.592,正确率为0.814。
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:H212

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 陈昌来;语法范畴和汉语语法研究[J];青海师范大学学报(哲学社会科学版);1997年04期
2 王海峰,李生,赵铁军,杨沐昀;汉英机器翻译中汉语离合词的处理策略[J];情报学报;1999年04期
3 常宝宝,詹卫东,张华瑞;面向汉英机器翻译的双语语料库的建设及其管理[J];术语标准化与信息技术;2003年01期
中国博士学位论文全文数据库 前1条
1 朝格吉乐玛;“时”概念的蒙汉语对比研究[D];华东师范大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 刘丽华;;把字句中的向字短语研究[J];安徽文学(下半月);2006年08期
2 刘世余;赵秀莉;;“数+人”结构中“人”的词性研究[J];安庆师范学院学报(社会科学版);2006年01期
3 刘来旸,瞿有利,樊孝忠;汉语智能输入系统的设计[J];北京理工大学学报;2001年03期
4 刘海燕;;试论存在句中“了”和“着”的互换问题[J];重庆文理学院学报(社会科学版);2006年01期
5 亢世勇;《现代汉语新词语信息(电子)词典》的开发与应用[J];辞书研究;2001年02期
6 亢世勇;《现代汉语语法信息词典》的特点与不足[J];辞书研究;2001年06期
7 徐枢;谭景春;;关于第5版《现代汉语词典》的词类标注[J];辞书研究;2006年01期
8 黎良军;;汉语词典词性标注的基本经验[J];辞书研究;2006年02期
9 付习涛;;关于构式“有+VP”[J];中国地质大学学报(社会科学版);2006年05期
10 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
中国重要会议论文全文数据库 前10条
1 郭锐;;语义等值和汉语虚词的意义分析[A];和谐社会:社会公正与风险管理——2005学术前沿论坛论文集(下卷)[C];2005年
2 王仁强;;汉英词典词类标注与译义的对称性研究——兼评《ABC 汉英大词典》的词类标注与译义[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
3 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 袁明军;;《现代汉语词典》里的拟声词[A];第六届汉语词汇语义学研讨会论文集[C];2005年
6 朱学锋;俞士汶;李峰;;汉语语素库的构造及其同语法信息词典的集成[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
7 李竹;;中文信息处理与现代汉语词类研究[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
8 冯志伟;;确定切词单位的某些非语法因素[A];语言文字应用研究论文集(Ⅱ)[C];2004年
9 李晋霞;;面向计算机的“V_双+N_双”结构类型研究[A];语言文字应用研究论文集(Ⅱ)[C];2004年
10 郑定欧;;汉语动词词汇语法[A];语言文字应用研究论文集(Ⅱ)[C];2004年
中国博士学位论文全文数据库 前10条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 齐璇;汉语语义知识的表示及其在汉英机译中的应用[D];国防科学技术大学;2002年
3 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
4 张蕾;概念结构及其应用[D];西北工业大学;2001年
5 樊中元;现代汉语一名多量现象研究[D];湖南师范大学;2003年
6 郭忠伟;作战文书自动生成理论及方法研究[D];南京理工大学;2003年
7 文贞惠;现代汉语否定范畴研究[D];复旦大学;2003年
8 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
9 马文;汉语会话中的照应修正研究[D];上海外国语大学;2004年
10 范莉;儿童和成人语法中的否定和否定辖域[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
2 黄元萃;汉语基本名词短语的自动识别模型[D];大连理工大学;2001年
3 王春霞;基于语料库的离合词研究[D];北京语言文化大学;2001年
4 陈先华;自然语言理解之汉语量词和名词搭配及查错系统[D];电子科技大学;2002年
5 王飞华;《三宝太监西洋记通俗演义》中的语气词研究[D];四川师范大学;2002年
6 李振中;单项定语的性质与“的”字的隐现[D];广西师范大学;2002年
7 王立霞;现代汉语介词短语边界识别研究[D];北京语言文化大学;2003年
8 王功平;副词“倒”与“却”的对比语义、语气及相关问题研究[D];暨南大学;2003年
9 崔尔胜;《水浒全传》量词研究[D];广西大学;2003年
10 张少平;基于结构化自然语言的算法规约研究[D];江西师范大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
4 吕雅娟,赵铁军,李生;单语句法分析指导的双语结构对齐[J];计算机研究与发展;2003年07期
5 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
6 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
7 吕学强,吴宏林,姚天顺;无双语词典的英汉词对齐[J];计算机学报;2004年08期
8 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
9 李珩,朱靖波,姚天顺;基于SVM的中文组块分析[J];中文信息学报;2004年02期
10 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
中国重要会议论文全文数据库 前2条
1 华沙宝;巴达玛敖德斯尔;;蒙古语语料库建设现状分析和完善策略[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 庞文斌;张国煊;曹恬;;基于规则和统计的汉语浅层句法分析的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 额尔敦朝鲁;面向信息处理的蒙古语动词语义研究[D];内蒙古大学;2005年
2 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
中国硕士学位论文全文数据库 前5条
1 吉日木图;基于模板的英蒙机器翻译系统的研究[D];内蒙古大学;2005年
2 李俊;统计机器翻译中解码算法的研究[D];哈尔滨工业大学;2006年
3 乌达巴拉;基于混合策略的蒙—英机器翻译系统的研究[D];内蒙古大学;2007年
4 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
5 雪飞;蒙古语单动词句型研究[D];内蒙古师范大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 胡树鲜;“了”与附加成分同现现象探求[J];北京教育学院学报;2002年01期
2 潘文国;从“了”的英译看汉语的时体问题[J];华东师范大学学报(哲学社会科学版);2003年04期
3 张黎;界变"论——关于现代汉语"了"及其相关现象[J];汉语学习;2003年01期
4 陈志烈;合适的时态范畴概念有利于学生对时态的掌握[J];丽水师范专科学校学报;2001年06期
5 张孝飞,陈肇雄,黄河燕,胡春玲;多策略机器翻译系统IHSMTS中实例模式泛化匹配算法[J];中文信息学报;2005年04期
6 徐波;史晓东;刘群;宗成庆;庞薇;陈振标;杨振东;魏玮;杜金华;陈毅东;刘洋;熊德意;侯宏旭;何中军;;2005统计机器翻译研讨班研究报告[J];中文信息学报;2006年05期
7 哈斯巴特尔;关于满语和蒙古语动词陈述式词缀-mbi和-mui(-müi)、-mu(-mü)的比较[J];满语研究;1999年02期
8 德力格尔玛;表现动词义位组合关系的形态标志──蒙古语动词的连接形[J];民族教育研究;1999年S1期
9 包满亮;蒙古语动词陈述式与它在日本语中的对应形式[J];民族教育研究;1999年S1期
10 宋金兰;;青海汉语助动词“给”与阿尔泰语言的关系[J];民族语文;1990年02期
【相似文献】
中国期刊全文数据库 前10条
1 那顺乌日图;关于面向信息处理的蒙古语语义研究[J];内蒙古大学学报(人文.社会科学版);2002年05期
2 张建梅;;面向信息处理的蒙古文同形异音词读音识别研究[J];内蒙古大学学报(人文社会科学版);2007年03期
3 德·青格乐图;;学者访谈——访确精扎布教授[J];内蒙古师范大学学报(哲学社会科学版);2011年03期
4 姜迎春;雪艳;;词语对齐与机器翻译问题研究——以汉蒙机器翻译为例[J];民族翻译;2010年01期
5 拉西吉格木德;蒙古文信息处理通用系统内部码体系结构详析[J];中文信息学报;1996年01期
6 那顺乌日图;淑琴;;面向信息处理的蒙古语规范化研究[J];中央民族大学学报(哲学社会科学版);2007年06期
7 华沙宝;达胡白乙拉;;对蒙古语语料库的短语标注[J];中央民族大学学报(哲学社会科学版);2006年05期
8 ;专家风采[J];中国教育信息化;2008年01期
9 陈海霞;辨别《TAI/TEI》形式的三种功能规则研究[J];内蒙古师范大学学报(哲学社会科学版);2004年S2期
10 确精扎布;;关于蒙古文编码的若干问题——与王升亮、嘎日迪、敖其尔先生商榷[J];内蒙古大学学报(哲学社会科学版);2008年04期
中国重要会议论文全文数据库 前9条
1 白双成;胡其图;木仁;;蒙古文音节切分算法实现及其应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 艳花;;《蒙古语语法信息词典字符分库》的建立及意义[A];第三届学生计算语言学研讨会论文集[C];2006年
4 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 海银花;那顺乌日图;;面向“蒙古语语义信息词典”的名词语义分类体系[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 淑琴;艳花;;蒙古语构形附加成分重叠使用特征及其模型[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
7 德·萨日娜;那顺乌日图;;《蒙古语语义信息词典》的初步构建[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 确精扎布;;蒙古文编码国际标准通过以后研制的几种蒙古文录入系统比较[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
9 德·萨日娜;;蒙古语属格短语的类型分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前6条
1 雪艳;汉蒙词语对齐及相关技术研究[D];内蒙古大学;2009年
2 海银花;面向信息处理的蒙古语名词语义研究[D];内蒙古大学;2010年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 富涛;面向信息处理的蒙古语简单谓动句句模研究[D];内蒙古大学;2011年
5 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
6 林八鸽;《蒙古语连接形式知识库》的建设[D];内蒙古大学;2009年
中国硕士学位论文全文数据库 前10条
1 吴金星;蒙古语词法标注语料库的构建及相关技术研究[D];内蒙古大学;2011年
2 李慧;蒙古语语义知识词典的研究与实现[D];内蒙古大学;2012年
3 吴红梅;蒙古语复合动词作定语研究[D];内蒙古师范大学;2010年
4 乌云塔娜;蒙古语复合名词支配量词研究[D];内蒙古师范大学;2010年
5 李桂荣;《青史演义电子词典》虚词部分的构建[D];内蒙古大学;2010年
6 阿日古娜;带主语标记的蒙古语复合名词作主语研究[D];内蒙古师范大学;2010年
7 都来;带有复数附加成分的蒙古语复合名词的研究[D];内蒙古师范大学;2010年
8 萨日娜;关于蒙古语复合词和后置词的语义搭配研究[D];内蒙古师范大学;2010年
9 苏龙嘎;蒙古语复合名词属格定语研究[D];内蒙古师范大学;2010年
10 苏德米德;蒙古语复合名词支配形动词的研究[D];内蒙古师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026