收藏本站
《大连理工大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

提高资源稀缺语言对之间的统计机器翻译性能

Abraham Tesso Nedjo  
【摘要】:半个世纪以来,随着信息和通信技术的发展,针对不同语言的机器翻译系统问世并逐渐流行。但是,由于缺乏相应的研究,奥罗莫语作为奥罗莫族州政府的官方语言,同时也是埃塞俄比亚国乃至非洲的主要语言之一,并没有被这些系统覆盖。因此至今,没有一款机器翻译系统用于翻译奥罗莫语。本文尝试搭建了一个简单的奥罗莫语-英语的机器翻译系统,这在奥罗莫语言史上尚属首次。本论文通过对奥罗莫语进行标注和完善的预处理,表明统计机器翻译系统用于语言资源稀缺的语言对也可以达到较好的结果。文中主要讨论了词汇符号化,词性标注,以及词汇符号化和词性标注对统计机器翻译性能的影响。论文第一部分是词汇符号化。除形态,屈折变化和词序问题,奥罗莫语还有另外一个导致数据稀疏的原因:奥罗莫语中用于表示hudhaa的符号的多样性。Hudhaa是奥罗莫语中变音标记符号。该部分参考文本符号化方法开发了一款针对奥罗莫语言的词汇符号化软件。为此,我们对奥罗莫语中的变音符hudhaa在语言中的拼写做了详尽的分析,然后采用统一的方式标注该符号。变音标记符的统一化降低了数据稀疏程度,并使机器翻译系统更好地对含有变音标记符的句子进行翻译。论文的第二部分内容是词性标注。词性属于语言学范畴。词性标注是指把拥有相似句法特征的词分成一类,比如:名词、形容词、动词、副词等。本文探索了不同的词性标注方法,最后采用最先进的技术——最大熵马尔科夫模型开发了用于奥罗莫语的自动词性标注器。这个模型可以在算法中加入规则作为特征函数,进而取得好的词性标注结果。论文的第三部分探索在基于短语的统计机器翻译系统中结合语言的词性信息以及规则对系统性能的影响。在统计机器翻译中普遍存在数据稀疏问题,因此翻译模型中统计词语对齐的概率是一个难题,即给定语料中大多数词仅出现少数几次。尤其对于像奥罗莫语这样屈折变化丰富的语言,数据稀疏问题更为明显。另外,奥罗莫语中变音标记符的多样性是另一个重要原因。本文通过使用词汇符号化和词性标注标注奥罗莫语来提高奥罗莫英语机器翻译系统的性能。该机器翻译系统所使用的数据集是一个很小的双语平行语料库(通常对正常的统计翻译系统来说是不可取的),同时语料库的翻译质量和拼写正确率也不高。尽管如此,最后的系统BLEU值达到3.11,明显高于基线系统的2.78。系统的翻译结果也从恰当性和流畅性方面进行人工评价。对于这两个方面,分别按最高分五分的评分机制进行评价,本系统的得分分别是3.69和3.59;而基线系统的平均得分仅为3.36和3.39.
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.2

手机知网App
【相似文献】
中国期刊全文数据库 前8条
1 ;TWO-STAGE SENTENCE SELECTION APPROACH FOR MULTI-DOCUMENT SUMMARIZATION[J];Journal of Electronics(China);2008年04期
2 ;Experimental study on the naturalness of synthetic speech[J];Chinese Journal of Acoustics;1993年03期
3 赵妍妍;秦兵;刘挺;;基于图的篇章内外特征相融合的评价句极性识别(英文)[J];自动化学报;2010年10期
4 夏阳;Using Microsoft SQL Server Efficiently on Net[J];Journal of China University of Mining & Technology;2000年02期
5 黄辉;董名垂;胡东成;;Machine Translation Based on Translation Corresponding Tree Structure[J];Tsinghua Science and Technology;2006年01期
6 张家騄 ,齐士钤;ON THE DYNAMIC SPECTRA OF SPEECH[J];Chinese Journal of Acoustics;1983年03期
7 ;Integration of speech and language processing in Chinese continuous speech recognition[J];Chinese Journal of Acoustics;2002年04期
8 ;[J];;年期
中国重要会议论文全文数据库 前8条
1 贾桂珍;罗宁霞;陈香;;A Brief Study of Concord in English[A];语言与文化研究(第五辑)[C];2010年
2 Bruce A.SCHNEIDER;;The effect of voice cuing on releasing Chinese speech from informational masking[A];Proceedings of the 7th Biennial Meeting and the 5th Congress of the Chinese Society for Neuroscience[C];2007年
3 Lin Xiaofeng;;The Quantitative Analysis of the Interlanguage Hypothesis and My Self-Constituted Models[A];贵州省外语学会2012年学术研讨会论文集[C];2012年
4 李小艳;;Unit3 The problem of the snakes(reading)[A];第三届中小学教师教学设计展论文集[C];2013年
5 刘黎虹;;Mistranslation in translation[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
6 ;Ambisyllabicity in English:How real is it?[A];第九届中国语音学学术会议论文集[C];2010年
7 ;Causal Relation Recognition between Sentence-based Events[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
8 杨雅丽;;Unit 4 How do you get to school?[A];第三届中小学教师教学设计展论文集[C];2013年
中国博士学位论文全文数据库 前6条
1 Abraham Tesso Nedjo;提高资源稀缺语言对之间的统计机器翻译性能[D];大连理工大学;2015年
2 杨朝军;英语左偏置构式:功能视角[D];河南大学;2006年
3 田兵;义项的区分与描写[D];广东外语外贸大学;2004年
4 余泽超;英汉叙述语篇中句内下指现象的认知功能阐释[D];上海外国语大学;2008年
5 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
6 王祥玉;汉英句型翻译的认知学研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 祝娇英;[D];西安外国语大学;2015年
2 刘敏;汉语让转构式“X是X”的认知语用分析[D];西南大学;2015年
3 张志鹏;《营养学反思》(第一、二章)翻译报告[D];四川外国语大学;2015年
4 孙盈月;《吉林华桥外国语学院学生手册》英译的反思性研究报告[D];吉林华桥外国语学院;2015年
5 唐小阳;高中生英语写作常见错误类型及分析[D];贵州师范大学;2015年
6 徐熙然;二语动作加工中的动作句子匹配效应[D];大连理工大学;2015年
7 张聪;医学病例的翻译实践报告[D];广西大学;2015年
8 刘维;基于事件的词尾“了”的语义研究[D];贵州师范大学;2015年
9 徐锐;《时尚、服饰与文化:不同时期的服装、头饰、配饰和鞋类》(节选)的翻译报告[D];广东外语外贸大学;2015年
10 袁丽;基于文本的情绪自动归因方法研究[D];哈尔滨工业大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026