收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

融入头—修饰词调序模型的短语统计机器翻译方法研究

刘水  
【摘要】:机器翻译是自然语言处理领域一个古老而经典的课题。机器翻译经历了从词到短语,从规则到统计的演变过程。目前机器翻译的研究正日趋成熟,融入句法信息的统计机器方法成为目前机器翻译领域的一个热点。 我们提出了一个将完全句法分析信息融入短语统计机器翻译的方法,并根据该方法实现了一个基于源语言端完全句法分析的机器翻译系统。该系统前端以一个完全句法分析器作为输入,翻译系统的框架采用基于短语的机器翻译解码算法;在翻译过程中,解码器首先将源语言的完全句法结构转化成头-修饰结构,在解码过程中融入基于头-修饰的调序模型改善翻译系统的调序,进而明显的提升了短语系统的翻译性能。 具体的,本文工作主要包含以下几个部分内容: (1)在前端的完全句法分析算法中,我们采用了基于词汇化头-修饰上下文的头驱动句法分析模型。数据稀疏是词汇化模型的重要问题,平滑方法是似然模型中解决数据稀疏的主要方法。本文在头驱动句法分析模型下,基于经典插值平滑算法,提出了以统计空间中平均事件数为基础的直接插值平滑算法,并应用经典的误差理论分析了该算法的合理性。基于该算法,并借鉴了语言模型中其他插值平滑算法对模型的零点进行假设的方法,在头驱动句法分析模型下,重新构造了4种平滑算法。 (2)提出了面向短语机器翻译的词级别调序模型。为了将该调序模型融入到机器翻译系统中,本文提出了两个对齐约束。基于该对齐约束,文中给出了一个基于翻译概率的对齐后处理方法。基于处理后的对齐结构,文中模型定义了基于调序参照词的两种调序。基于该调序定义,进一步提出了将两种将头-修饰结构融入该调序模型的方法,并给出了该模型的参数估计方法。 (3)短语模型的解码算法是短语的机器翻译系统的核心部分。提出了基于翻译状态的短语机器翻译系统的解码算法。该解码算法包含1-best解码方法和n-best解码方法。在解码过程中,翻译路径根据翻译状态进行组织。n-best解码中,采用限制翻译状态中翻译数目的方法,将n-best的多样性控制在一定范围内。由于文中算法综合考虑了翻译状态、翻译模型以及解码算法之间的联系,文中提出的n-best解码算法在两个数据集合上明显的提升了翻译质量。 (4)提出了头-修饰的模型训练方法,以及将词级别调序模型融入短语机器翻译解码过程的方法。在模型训练中,采用移入-规约的算法训练本文的基于头-修饰结构的调序模型。在解码过程中,算法引入词索引数据结构,以识别解码过程中的调序类型。实验结果显示,我们提出的调序模型可以明显的改善基线系统的局部调序能力。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱娥;;语用视角下英语可能实现条件句的表达[J];长春理工大学学报;2011年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 董兴华;周俊林;郭树盛;吐尔洪·吾司曼;;基于短语的汉维(维汉)统计机器翻译研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 朱海;李淼;张建;乌达巴拉;;系统融合方法在汉蒙统计机器翻译上的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 梁芳丽;李淼;李文;陈雷;乌达巴拉;;统计机器翻译中的源语言重排序方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 王春荣;宝美荣;王斯日古楞;;内蒙古师范大学CWMT2011蒙汉机器翻译系统评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 曹杰;任志祥;吕雅娟;刘群;;统计机器翻译系统中传统词典的应用研究[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
10 姚树杰;肖桐;朱靖波;;基于句对质量和覆盖度的统计机器翻译训练语料选取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国重要报纸全文数据库 前3条
1 文;伟人的“文案意识”[N];中国轻工报;2000年
2 连线教师 孟庆忠;广泛阅读 讲究方法 找准角度 掌握技巧[N];连云港日报;2005年
3 海焰;当传统玩具“遭遇”IT技术[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
2 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
3 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
5 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
6 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
9 刘杰;汉语相似范畴研究[D];暨南大学;2010年
10 张兰兰;汉语阅读过程中心理词加工机制的实验研究[D];天津师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 狄萍;基于短语的统计机器翻译的研究[D];苏州大学;2010年
2 银花;基于短语的蒙汉统计机器翻译研究[D];内蒙古师范大学;2011年
3 李天宁;词对齐技术研究及统计机器翻译平台的构建[D];东北大学;2009年
4 李函章;统计机器翻译中语料选择方法研究[D];黑龙江大学;2010年
5 张育;基于依存语法的统计机器翻译研究[D];苏州大学;2011年
6 王志杰;统计机器翻译系统在手持设备上的研究与实现[D];内蒙古大学;2012年
7 蓝翔;采用统计机器翻译模型的复述生成技术研究[D];哈尔滨工业大学;2010年
8 张春越;统计机器翻译中树到串对齐模板模型系统实现和比较研究[D];哈尔滨工业大学;2010年
9 李文;形态非对称汉蒙统计机器翻译模型构造方法研究[D];中国科学技术大学;2011年
10 宋美娜;基于词缀特征的汉蒙统计机器翻译系统[D];内蒙古大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978