收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

统计机器翻译中的词对齐研究

黄书剑  
【摘要】:随着互联网的蓬勃发展,跨语言交流日益频繁,传统的基于人工的语言翻译己不能满足互联网中海量的、实时的翻译需求,机器翻译的研究应运而生。在不同类型的机器翻译研究中,统计机器翻译因其良好的自动学习能力和不同领域上较好的翻译效果而逐渐受到人们的青睐。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片段,是翻译知识的主要来源。 近年来,判别式的词对齐方法取得了较大的进展。与生成式模型相比,判别式模型更易于融入多样性的特征,因而具有更强的可扩展性,且往往能取得较好的性能。然而,判别式词对齐研究始终面临如下几个重要问题:首先,词对齐的搜索面临两难的困境,由于搜索空间巨大,精确搜索往往较为困难,而采用近似搜索的方法往往会对结果的准确性造成一定的影响。其次,判别式方法的学习过程往往依赖于人工标记的词对齐数据,而词对齐的标记数据数量较少、标记成本高昂。随着判别式模型中所使用特征数量的不断增长,相对不足的标记数据数量往往会影响学习效果。此外,长期以来用于衡量词对齐质量的指标(词对齐错误率,AER)与机器翻译的最终评价指标的相关性不强,这使得部分判别式学习的方法虽然能够显著降低词对齐错误率,但并不能显著提升翻译结果的质量。 本文针对上述问题对判别式词对齐学习展开研究,主要工作包括: 1、提高基于反向转换文法(ITG)的词对齐搜索效率:针对词对齐的结构性歧义问题,分析了歧义的产生原因,并提出了一种改进的ITG文法——LGFN文法,该文法可以有效地消除结构性歧义从而提高搜索效率;针对词对齐搜索中的剪枝问题提出了一种假设剪枝方法,该方法能够在进行同步句法分析的过程中,动态地对词对齐假设进行筛选,从而使得搜索被约束在较高质量的词对齐空间中,进一步提高了搜索的效率。 2、针对人工标记的词对齐数据较少的问题提出了一种半监督的词对齐学习框架。该框架通过独立性假设将词对齐融合问题转换成二元分类问题,并采用半监督学习的方法,利用大量的未标记样本来提高分类模型的性能。与结构化的搜索方法相比,通过一系列的二元分类决策来完成词对齐任务提高了搜索的效率,使得大规模数据上的半监督学习变得可能。随着分类性能的提高,词对齐的学习结果也得到了相应的提升。 3、通过分析词对齐错误对翻译规则生成的影响,提出了一种错误敏感的词对齐评价方法(ESAER)。该方法可以对不同类型、不同程度的词对齐错误施以不同的惩罚。与AER相比,ESAER兼顾了词对齐对机器翻译系统的影响,因而与机器翻译的结果评价指标具有更强的相关性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王志洋;吕雅娟;刘群;;面向形态丰富语言的多粒度翻译融合[J];中文信息学报;2011年04期
2 黄辉;;一种线材对齐卸卷的方法[J];科技传播;2011年17期
3 葛宇;;打造WPS文字中的视觉靓表[J];电脑迷;2011年12期
4 葛宇;;巧用表格属性美化表格[J];电脑知识与技术(经验技巧);2011年06期
5 稻草人;;SSD分区对齐后仍然速度慢的解决[J];电脑迷;2011年14期
6 Chavez Miguel;;扬声器系统的自动均衡、分频和对齐[J];集成电路应用;2011年06期
7 文超;蒋卫寅;凌力;;一种基于块的智能桌面布局机制[J];微型电脑应用;2011年07期
8 张亚军;;汉语-维吾尔语机器翻译解码器研究[J];昌吉学院学报;2011年03期
9 沈栋;;图片巧排版,让PPT快速灵动起来[J];电脑爱好者;2011年03期
10 小蚊子;;电影胶片让PPT图片灵动起来[J];电脑爱好者;2010年24期
11 吴振全;;取材求精 构思求密——忆刘帅战场谈写作[J];新闻窗;2011年03期
12 于得海;;巧用参考线实现对象的圆形分布[J];电脑知识与技术(经验技巧);2011年08期
13 曹源;;一种类C语言编程环境的设计与实现[J];软件导刊;2011年06期
14 邹付群;成思源;李苏洋;刘楷新;;运用3D数字化模型的轮胎花纹检测[J];现代制造工程;2011年08期
15 于得海;;在PowerPoint中制作同心圆[J];电脑知识与技术(经验技巧);2011年08期
16 周庆兰;陈然;周鹏;;时间序列相似性度量的面积距离方法的研究[J];软件导刊;2011年06期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 田亮;黄辉;周沁;;面向短语的词语对齐方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
2 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 朱海;李淼;张建;乌达巴拉;;系统融合方法在汉蒙统计机器翻译上的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 王春荣;宝美荣;王斯日古楞;;内蒙古师范大学CWMT2011蒙汉机器翻译系统评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 巢文涵;李舟军;;ZZX_MT系统CWMT2011评测报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 周玉;宗成庆;徐波;;基于多层过滤的统计机器翻译[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 张育;李良友;贡正仙;周国栋;;粘贴模型在依存语法统计机器翻译中的应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 何彦青;周玉;宗成庆;;基于“松弛尺度”的短语翻译对抽取方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
2 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
3 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
4 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
5 马延军;干扰对齐及其在现代无线通信系统中的应用[D];西安电子科技大学;2012年
6 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
7 李海艳;面向反求工程的多传感器集成及数据融合技术研究[D];华中科技大学;2010年
8 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
9 卢光跃;逆合成孔径雷达(ISAR)成像技术的改进[D];西安电子科技大学;1999年
10 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘建明;基于统计机器翻译的汉维词对齐研究[D];新疆大学;2010年
2 张春越;统计机器翻译中树到串对齐模板模型系统实现和比较研究[D];哈尔滨工业大学;2010年
3 李函章;统计机器翻译中语料选择方法研究[D];黑龙江大学;2010年
4 张育;基于依存语法的统计机器翻译研究[D];苏州大学;2011年
5 张涛;面向特定领域的统计机器翻译研究与应用[D];昆明理工大学;2011年
6 狄萍;基于短语的统计机器翻译的研究[D];苏州大学;2010年
7 王志杰;统计机器翻译系统在手持设备上的研究与实现[D];内蒙古大学;2012年
8 李文;形态非对称汉蒙统计机器翻译模型构造方法研究[D];中国科学技术大学;2011年
9 宋美娜;基于词缀特征的汉蒙统计机器翻译系统[D];内蒙古大学;2010年
10 李天宁;词对齐技术研究及统计机器翻译平台的构建[D];东北大学;2009年
中国重要报纸全文数据库 前10条
1 宋志明;显示对象快速对齐[N];中国电脑教育报;2003年
2 蔡峻;也看Word中的对齐问题[N];中国电脑教育报;2004年
3 宗建华 李彤 朱华昌;和竞争对手一起赚钱 [N];中国石化报;2003年
4 许向前;巧用表格让选择题选项对齐[N];中国电脑教育报;2003年
5 丁健 张万军 江南;右顺序对齐菜单实现方法[N];计算机世界;2001年
6 徐育兵;完形填空选项巧对齐[N];电脑报;2003年
7 陶锦云;巧用制表符让选项对齐[N];中国电脑教育报;2003年
8 本报记者 李守苓;暑假打工现象你怎么看[N];中国石化报;2001年
9 本报记者 许立群;齐晖:在否定中成长[N];人民日报;2003年
10 刘丽芳;省人大调研组结束对齐调研[N];齐齐哈尔日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978