收藏本站
收藏 | 论文排版

机器翻译中系统融合技术的研究

刘宇鹏  
【摘要】:机器翻译的研究已经有几十年的历史了。目前主流的研究方向是基于统计的机器翻译模型。统计翻译模型从基于词到成熟的基于短语的翻译模型,直至到形式化文法和基于句法的翻译模型,而且加入了很多的特征。因此机器翻译进入了一个“百花齐放,百家争鸣”的时代。但是不同的模型有不同的重排序能力,不同的解码方法有不同的搜索空间。 针对多种机器翻译的翻译结果,我们是否能够融合多种翻译结果来达到“取长补短”,这就是系统融合。系统融合在近几年才取得了标志性的性能提高,但关于系统融合的若干关键问题的研究还不完善。按照融合的粒度来分,可以分为基于句子,基于短语,和基于词的系统融合;按照融合的阶段来说,可以分为后处理阶段和解码阶段的系统融合。本文主要是在两种现今流行的方法中研究:一个是后处理阶段的基于词的系统融合,另一个是解码阶段的系统融合。本文对系统融合中出现的若干关键问题进行了研究。其中包含骨架翻译的选择,对齐方法,在混淆网络中的调序,模型融合后的解码方法等方面。 基于这些问题,本文旨在提高系统融合的性能,针于基于词的系统融合提出了增强的对齐方法,重排序模型以及新的解码框架本;针对模型融合的解码方法进行了深入了研究。本文具体研究内容包括以下几个方面: 1.研究了在基于词一级系统融合中混淆网络的构建中加入了增量的策略。我们也说明增量对齐方法能够有效的改进对齐质量;由于在“翻译错误率”(TER)增量对齐中,假设翻译的顺序影响了增量对齐的结果,我们做了实验性的比较;同时为了解决TER算法只匹配同一词的缺点,我们引入取词根和基于WordNet的词义消歧方法来进行候选翻译和假设翻译中词语的对齐; 2.在系统融合的训练过程中,混淆网络的骨架翻译的选择决定了假设翻译的语序,传统的选择方法是选择具有MBR特性的候选翻译作为对齐的骨架,这就造成了对于混淆网络只考虑到一种语序形式。由于我们融合的机器翻译结果是来自于多种不同文法或是方法,每种翻译结果有着不同的语序,为了使得每种翻译结果的语序都被考虑到,我们构建了一个超级混淆网络,并用两种方法来验证方法的有效性:一种在超级混淆网络中的加入基于混淆网络的特征;另一种是在解码中对多个混淆网络生成的候选翻译翻译进行一致性重打分。实验结果也验证了两种方法的有效性。 3.研究了利用超图进行系统融合的训练和解码。为了计算训练阶段的量值方便,我们在训练的过程引入了二阶半环框架来计算梯度。在解码阶段为了使得原有Cube-Pruning剪枝的框架被保留下来,我们使用Cube Growing,采用了三个阶段的训练解码,第一个阶段是使用Cube Growing进行普通解码;第二个阶段使用n-gram特征来解决伪歧义和一致性解码的问题;第三个阶段对于两个系统融合模型进行融合,三个阶段取得了一定的效果。由于更大的搜索空间和更好整合语言模型特征,得到了比较好的结果。 4.由于每种文法表现能力不同,为了使得每种文法能够取长补短,我们对于层次短语文法和括号转录文法进行在机器翻译的解码框架下进行融合。不同于系统融合方法,解码框架的融合考虑到了解码过程生成的侯选翻译的互相影响,并不是对于生成翻译结果进行重新训练和解码,这样减少了整个过程的时间,同时性能也好于单个系统生成的翻译结果。 综上所述,本文基本上给出了系统融合中的一整套解决方案,有后处理和模型间融合的模型研究,有这些过程的训练和解码研究。为自然语言处理中的难题之一——系统融合,在新的研究思路上进行了初步探索。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨书卷;;“万能”方法的解决之道[J];科技导报;2011年19期
2 毛太田;傅佳;;通过Web数据挖掘为VILA语言搜集多语种词汇[J];中国科技信息;2011年16期
3 王志洋;吕雅娟;刘群;;面向形态丰富语言的多粒度翻译融合[J];中文信息学报;2011年04期
4 宿建军;张小燕;吐尔洪·吾司曼;李晓;;联合式多引擎维汉机器翻译系统[J];计算机工程;2011年16期
5 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期
6 庞观松;张黎莎;蒋盛益;;个性化跨语言学术搜索技术研究[J];情报学报;2011年08期
7 占飞;刘挺;;面向英文辅助写作的词语相似度应用研究[J];智能计算机与应用;2011年03期
8 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
9 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
10 蒙太奇;;最佳在线翻译也雷人[J];黄金时代(学生族);2009年12期
11 张亚军;;汉语-维吾尔语机器翻译解码器研究[J];昌吉学院学报;2011年03期
12 扎西加;高定国;;藏语语料库TEI标记规范探讨[J];中文信息学报;2011年04期
13 朱祝武;;人工智能发展综述[J];中国西部科技;2011年17期
14 王海峰;赵世奇;;面向互联网的计算语言学研究[J];智能计算机与应用;2011年03期
15 李文刚;周杰;杨保群;;基于词典和句长及位置的双语对齐方法的改进[J];现代电子技术;2011年14期
16 卡哈尔江·阿比的热西提;吐尔根·依布拉音;姚天昉;艾山·吾买尔;艾山·毛力尼亚孜;;一种改进的维吾尔语句子相似度计算方法[J];中文信息学报;2011年04期
17 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 周玉;翟飞飞;张家俊;涂眉;陈钰枫;宗成庆;;多语言文本机器翻译系统——中科院自动化所CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
2 奚宁;赵迎功;汤光超;李中华;刘友强;戴新宇;陈家骏;;南京大学第七届机器翻译研讨会评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 梁芳丽;陈雷;李淼;何绵涛;刘绘;;第七届全国机器翻译研讨会中科院智能所评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 姚天顺;杨莹;;关于机器翻译的评测问题[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 何彦青;石崇德;于薇;张均胜;王惠临;;中国科学技术信息研究所CWMT'2011技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 希夏姆.马利克;;汉阿机译研究(一) 从汉语单句若干结构谈论汉阿机译[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 肖桐;张浩;李强;路琦;朱靖波;任飞亮;王会珍;;CWMT2011东北大学参评系统NiuTrans介绍(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 麦热哈巴.艾力;米日古.肉孜;撒依达;江阿古丽;吐尔根.伊布拉音;;新疆大学CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 赵红梅;吕雅娟;贲国生;黄云;刘群;;第七届全国机器翻译研讨会(CWMT2011)评测报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
10 李贤华;郑仲光;孟遥;于浩;;第七届全国机器翻译研讨会(CWMT2011)富士通研究开发中心技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
2 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
3 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 百顺;日蒙机器翻译及相关技术研究[D];内蒙古大学;2012年
6 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
7 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
8 雒自清;语义块类型、构成及变换的分析与处理[D];中国科学院研究生院(声学研究所);2004年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 李平;基于Internet的人机互助机器翻译技术的研究[D];内蒙古大学;2012年
2 惠聪;机器翻译中的高级对齐技术和开发集选择策略研究[D];上海交通大学;2012年
3 陈亮;基于英汉平行语料库的机器翻译知识获取研究[D];北京交通大学;2012年
4 段恋;基于短语句法结构的树—串汉英对齐模板抽取研究[D];北京邮电大学;2010年
5 朱晓宁;基于语言学知识的机器翻译自动评价研究[D];哈尔滨工业大学;2011年
6 计丽丽;基于混合策略的机器翻译研究[D];安徽理工大学;2012年
7 王内;文学材料和非文学材料机器翻译适用性比较研究[D];湖南师范大学;2012年
8 朱俊国;机器翻译自动评价计算粒度研究[D];哈尔滨工业大学;2010年
9 李志青;基于Internet的互动辅助翻译技术研究[D];内蒙古大学;2011年
10 麦丽开·阿布德瓦力;面向机器翻译的汉维词语对齐规范[D];新疆大学;2012年
中国重要报纸全文数据库 前10条
1 凌子浪;机器翻译的未来不可估量[N];计算机世界;2001年
2 《中国电脑教育报》记者 晨风;机器翻译如何是好?[N];中国电脑教育报;2001年
3 赵迎华;机器翻译如何是好[N];光明日报;2001年
4 ;机器翻译在电子政务系统建设中的应用[N];中国电脑教育报;2004年
5 ;机器翻译 在电子政务系统建设中的应用[N];中国电脑教育报;2004年
6 刘 莎;语义约定全文翻译: 机器翻译的“日心说”?[N];计算机世界;2002年
7 何艳霞;韩国完善专利信息系统机器翻译和英文检索功能[N];中国知识产权报;2007年
8 刘仁;“语义分析”升级专利机器翻译[N];中国知识产权报;2008年
9 刘素元、艾文;给机器翻译装上“大脑”[N];中国计算机报;2002年
10 李佳师;拓展嵌入式空间 中软可借力微软[N];中国电子报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978