收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

统计机器翻译的一致性解码方法研究

段楠  
【摘要】:近二十年来,机器翻译(machine translation, MT)研究迅猛发展。相比于传统的基于规则(rule-based)和基于实例(example-based)的机器翻译方法,统计机器翻译(statistical machine translation, SMT)在译文质量和系统鲁棒性上均展示出巨大优势,并已经成为机器翻译研究领域中的主流方法。 给定源语言输入,机器翻译的任务在于生成与该输入表达意义相同的目标语言输出。典型的SMT系统在完成上述翻译任务的过程中,往往能够生成多条不同的目标语言翻译假设(translation hypotheses)。然而,由于翻译模型本身的局限性,系统排名最高(1-best)的翻译假设通常却并不是全部翻译假设中的最优结果;此外,基于不同翻译模型SMT系统的大量涌现,进一步扩展了相同源语言输入能够对应的目标语言翻译候选集合大小。在上述背景下,如何有效地利用不同翻译假设及其包含的信息来获取更优的翻译结果,已经成为近年来机器翻译研究领域中的一个热点课题。本篇博士论文针对该课题进行了一系列深入而系统的研究,并按照下述框架组织全文: 首先,本文将该课题目前已有的研究成果大体分为如下两类,并提出一个统一的一致性解码(consensus decoding)框架,将这两类方法包括其中: ·翻译假设重排序,主要应用于单个SMT系统的翻译假设空间之上。该类方法通过选取特定的评判准则,对整个翻译假设空间中所包含的全部翻译假设进行重打分并重新排序,进而选取重排序后排名最高的翻译假设作为最终的翻译结果; ·系统融合,主要应用于多个SMT系统的翻译假设空间之上。根据其使用翻译单元的不同,该类方法又可划分为句子级(sentence-level)、短语级(phrase-level)和词汇级(word-level)三种不同的层次。其中,词汇级系统融合能够提供的性能提升最为显著,因此相关方面的研究成果也最多。然后,针对已有典型工作的不足,本文提出四种新型的一致性解码方法: ·基于特征子空间的句子级系统融合给定任意基于对数-线性(log-linear)模型的(主)SMT系统,通过选取该系统特征全集的不同特征子集来构造多个(子)SMT系统,进而在全部系统的输出结果之上使用一种句子级系统融合方法,来选取最终的翻译结果。 该方法的贡献在于:提出了一种简单有效的多SMT系统构造方法,极大程度地减少了系统融合工作中多翻译系统构造方面的巨大开销; ·协作解码给定多个基于对数-线性模型的SMT系统,通过共享翻译假设空间的方式允许不同翻译系统进行交互,每个翻译系统通过使用一组基于其他翻译系统生成的翻译假设空间计算得到的n-gram统计量特征,来对自身的(局部和全部)翻译假设空间进行重排序。在协作解码完成后,还能够通过系统融合的方法获取进一步的性能提升。 该方法的贡献在于:在解码过程中直接发生作用,能够在一定程度上避免更优的局部翻译假设被较早剪枝(pruning)的问题; ·基于混合模型的最小贝叶斯风险解码使用混合模型将多个SMT系统的翻译假设概率分布整合,利用整合后的概率分布在多个SMT系统合并后的翻译假设空间上计算MBR解码所需的n-gram统计量特征,进而从全部翻译候选中选取最终的译文结果。与传统的MBR解码方法相比较,基于混合模型的MBR解码所能访问到的翻译假设数目更多、差异性更大,并且基于混合概率分布计算的n-gram统计量也更为准确,因此,该方法能够获得的性能提升也更多。 该方法的贡献在于:将最小贝叶斯风险解码的应用范围从单个SMT系统扩展到多个SMT系统; ·翻译假设混合解码通过利用来自多个SMT系统的局部翻译假设来构造一个更大的混合假设空间,并利用一系列基于一致性的统计量特征从该空间中选取最终的翻译结果。大规模数据上的机器翻译评测实验表明,该方法在翻译性能上显著地优于翻译假设重排序和词汇级系统融合方法。 该方法的贡献在于:同时继承了翻译假设重排序和系统融合两类方法的优点,不仅能够使用来自任意SMT系统生成的局部翻译假设构建更大的翻译假设空间,而且能够产生已有翻译假设候选集合之外的新的翻译结果。 在每种方法的对应章节中,本文均通过大规模数据上的中-英机器翻译评测实验,来验证各个方法的有效性; 最后,总结全文,并对未来工作进行展望。 本篇博士论文所探讨的一致性解码方法均针对统计机器翻译任务。然而,该类方法中所包含的思想同样适用于其他很多自然语言处理任务,如统计句法分析、自动语音识别、自动词对齐等。在将来的研究中,我们也将尝试在这些领域进一步扩展一致性解码方法的应用范围。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郎君;;统计机器翻译中翻译模型的约简概述[J];智能计算机与应用;2011年03期
2 张亚军;;汉语-维吾尔语机器翻译解码器研究[J];昌吉学院学报;2011年03期
3 宿建军;张小燕;吐尔洪·吾司曼;李晓;;联合式多引擎维汉机器翻译系统[J];计算机工程;2011年16期
4 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 董兴华;周俊林;郭树盛;吐尔洪·吾司曼;;基于短语的汉维(维汉)统计机器翻译研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[A];第三届学生计算语言学研讨会论文集[C];2006年
3 熊皓;刘洋;刘群;;模糊匹配在树到串翻译模型中的应用[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 蒋俊杰;徐金安;张玉洁;;北京交通大学CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 朱海;李淼;张建;乌达巴拉;;系统融合方法在汉蒙统计机器翻译上的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 王春荣;宝美荣;王斯日古楞;;内蒙古师范大学CWMT2011蒙汉机器翻译系统评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 巢文涵;李舟军;;ZZX_MT系统CWMT2011评测报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 姚树杰;肖桐;朱靖波;;基于句对质量和覆盖度的统计机器翻译训练语料选取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
2 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
3 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
5 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
6 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
7 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
8 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
9 王博;机器翻译系统的自动评价及诊断方法研究[D];哈尔滨工业大学;2010年
10 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 崔磊;关于层次短语翻译模型调序问题的研究[D];哈尔滨工业大学;2010年
2 许冲;统计机器翻译中层次短语翻译模型的研究与实现[D];哈尔滨工业大学;2010年
3 李文;形态非对称汉蒙统计机器翻译模型构造方法研究[D];中国科学技术大学;2011年
4 银花;基于短语的蒙汉统计机器翻译研究[D];内蒙古师范大学;2011年
5 张育;基于依存语法的统计机器翻译研究[D];苏州大学;2011年
6 宝美荣;融入形态学分析的汉蒙统计机器翻译研究[D];内蒙古师范大学;2012年
7 任高举;基于短语的翻译模型中汉维短语抽取的研究[D];新疆大学;2010年
8 宋美娜;基于词缀特征的汉蒙统计机器翻译系统[D];内蒙古大学;2010年
9 张春越;统计机器翻译中树到串对齐模板模型系统实现和比较研究[D];哈尔滨工业大学;2010年
10 王志杰;统计机器翻译系统在手持设备上的研究与实现[D];内蒙古大学;2012年
中国重要报纸全文数据库 前1条
1 周滢;走向新时代[N];中国邮政报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978