收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

机器翻译系统的自动评价及诊断方法研究

王博  
【摘要】: 人类社会是一个由多种文化组成的复杂整体,各种文化间的互相影响和渗透促进了人类社会的进步和发展。在当今的信息社会中,各文化间交流的主要载体是语言,而不同语言之间的翻译成为文化交流过程中的关键所在。面对海量的多语言信息,传统的人工翻译已经远远无法满足需要,因此能够实现自动化的自然语言翻译的机器翻译技术在过去十几年中一直是人工智能领域研究的一个主要热点。 在机器翻译研究中,翻译系统的评价方法是一个关键环节,它对于机器翻译研究具有着非常重要的意义。评价方法可以对翻译系统的性能作出评价,指出存在的问题,指导系统的研发。准确的评价方法是系统研发过程的主要依据,是推进机器翻译系统发展的主要动力之一。可以说,没有有效的评价方法,就没有机器翻译系统的发展。 经过近几年的发展,机器翻译自动评价方法的研究在世界范围内取得了丰富的成果,这些成果都主要体现在基于系统译文和参考译文的宏观相似度的评价方面。目前,基于宏观相似度的评价方法虽然取得了一些进展,但是其评价性能仍然有待进一步提高。这里的“宏观”指的是将一个句子,一篇文章乃至一套语料作为一个完整的整体进行评价,给出唯一的一个评价分数,该分数体现了机器翻译系统的整体性能。宏观评价是一种黑箱的评价方法 另一方面,随着机器翻译系统变得越来越复杂,传统的宏观评价方法已经难以满足当前机器翻译研究的需要,研发者们需要能够提供更加丰富信息的微观自动评价方法。这里的“微观”指的是对语料中的片段或者机器翻译系统的某方面功能的评价。微观评价是一种白箱的评价方法,在本文中,我们进一步的根据其特点,将提出的微观评价方法称为“诊断”方法。 基于这些问题,本文旨在进一步提高宏观自动评价方法的性能,同时面向机器翻译的微观评价,提出有效的机器翻译自动诊断方法。对基于字符串相似度的宏观评价方法,参考译文的覆盖度扩展以及面向单语和双语的自动诊断方法等关键技术进行研究。 1.基于不连续N元子串的宏观自动评价。基于字符串相似度的宏观自动评价方法以其快速稳定的性能和广泛的适用性得到普遍接受。本研究着眼于提高基于字符串相似度的评价方法的性能,在对现有方法的优势和不足的分析的基础上,提出了一种新的基于不连续N元子串的评价技术。新的方法在不连续2元子串方法的基础上进行了扩展,其中包括了选择更宽的单元长度和多重的相似度统计。另一方面,基于SVM的机器学习方法也被引入到新方法当中,用于调整多重统计在整体评价中的权重。新的方法在性能上得到了提高。该研究的成果在2008年NIST评测中取得了两个第一和一个第二的好成绩。 作为宏观评价方法的一种应用,本文还将宏观评价指标引入机器翻译译文融合方法。机器翻译中的译文融合技术是近年来备受关注的一个新课题。随着不同类型的机器翻译系统的不断涌现,研究者们开始尝试通过译文融合技术来整合不同系统的优势能力。作为宏观评价方法的一个应用,本研究着眼于利用翻译系统的宏观评价指标来指导译文融合,实现译文融合技术在鲁棒性和有效性上的平衡。该研究的成果在2008和2009年的国内评测中均取得了最佳成绩。 2.基于句法信息的参考译文扩展。参考译文是自动评价方法的关键因素,参考译文的语言学覆盖度直接影响着评价的质量。本研究着眼于自动化的提高参考译文的语言学覆盖度。本文在不依赖于额外的语言学数据的情况下,实现了参考译文的扩展,并且在参考译文中实现了对不同层次,不同尺度的片段的替换。基于自动扩展的参考译文集合,宏观自动评价方法的性能得到了进一步的提高。 3.基于单语语言学检测点的自动诊断方法。机器翻译的微观评价,或称诊断方法是自动评价方法中的全新课题,在国内外受到普遍重视,但是尚处于起步阶段。本研究着眼于提出完整的,全自动的机器翻译诊断体系。该体系从单语的角度,对机器翻译系统在不同重要语言现象上的翻译能力予以评价,为翻译系统的研发者提供多角度,多层次的诊断信息,为实现有针对性的系统开发提供有力的帮助。该研究的成果已经被国内的机器翻译评测选用为评价指标之一。 4.面向双语转换的自动诊断方法。机器翻译的根本任务是实现从源语言到目标语的转换。双语转换的质量是机器翻译的根本问题。在单语诊断方法的研究基础上,本研究旨在实现面向双语转换的自动诊断系统。新的诊断系统通过直接对双语转换进行识别,获取,分类和统计来实现对翻译能力的更为直接的评价。另一方面,本研究还首次提出了翻译错误成因的自动分析以及针对词序转换错误的专门分析等新的方法。 综上所述,本文的主要贡献在于通过新的相似度评价手段,机器学习方法以及参考译文的扩展,提高了宏观自动评价方法的整体性能,为宏观评价方法中的若干关键技术提供了新的思路。在微观评价的自动诊断技术领域,做出了开拓性的工作,分别从单语和双语的角度,提出了较为完整的自动诊断体系,为机器翻译的研究者提供了全新的评价方法。新的诊断方法一方面促进了机器翻译研究的发展,另一方面,也为今后的微观评价研究提供了借鉴。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 官却多杰;欧珠;;藏文机器翻译用句型转换算法研究[J];西藏科技;2011年05期
2 邹心胜;;基于领域本体重用的机器翻译研究[J];情报科学;2011年06期
3 晋耀红;;专利文本翻译中复杂长句翻译算法研究[J];计算机应用研究;2011年08期
4 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期
5 张亚军;;汉语-维吾尔语机器翻译解码器研究[J];昌吉学院学报;2011年03期
6 宿建军;张小燕;吐尔洪·吾司曼;李晓;;联合式多引擎维汉机器翻译系统[J];计算机工程;2011年16期
7 王斯日古楞;斯琴图;那顺乌日图;;汉蒙统计机器翻译中的调序方法研究[J];中文信息学报;2011年04期
8 于兴艳;孔真;;浅析基于web的跨语言信息检索之现状[J];信息通信;2011年04期
9 梁艳霞;;声音广播可听度自动评价技术的实现与技术改造探讨[J];内蒙古广播与电视技术;2011年02期
10 郎君;;统计机器翻译中翻译模型的约简概述[J];智能计算机与应用;2011年03期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 牟小峰;;面向英汉机器翻译的树库建设[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 熊维;王震;于新;刘汇丹;诺明花;马龙龙;张立强;洪锦玲;吴健;;ISCAS机器翻译系统与评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 安勤华;王荷萍;陆次平;蔡洪正;;测井自动评价地层在东海残雪构造中的应用[A];第七届全国数学地质与地学信息学术会议论文摘要汇编[C];2004年
4 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 范莉馨;任福继;宫永喜一;(木厉)内香次;;一个利用句子结构特征实现的中日机器翻译系统[A];中国科学技术协会首届青年学术年会论文集(工科分册·上册)[C];1992年
6 潘璐;林煜熙;姚建民;;基于语言模型自动评价翻译质量方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 卢丹晖;;机器翻译的应用前景[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年
8 宋金平;肖健;孙广范;;面向北京奥运会的定制化英汉机器翻译系统[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 董娜;林碧琴;丁丰;;机器翻译中若干问题的探讨[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
10 田中康仁;;关于机器翻译系统未来的方向[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前9条
1 王博;机器翻译系统的自动评价及诊断方法研究[D];哈尔滨工业大学;2010年
2 方淼;语义单元自动获取研究[D];大连理工大学;2008年
3 关晓薇;基于语义语言的机器翻译系统中若干关键问题研究[D];大连理工大学;2009年
4 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
5 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
6 武斌;面向俄文信息处理的机器翻译实验研究[D];中国人民解放军外国语学院;2007年
7 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
8 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
9 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 任宣映;汉韩语言比较及基于规则的汉韩机器翻译系统研究[D];清华大学;2004年
2 朱海;基于混淆网络的机器翻译系统融合研究[D];中国科学技术大学;2010年
3 赛依旦·阿不力米提;基于WCF的维汉词典及机器翻译系统的设计与实现[D];新疆大学;2012年
4 高俊涛;机器翻译评价的统计方法研究[D];苏州大学;2008年
5 胡永久;一个英汉机器翻译系统的研究与实现[D];四川大学;2005年
6 吴闯;基于模板的汉日机器翻译系统的研究与实现[D];东北大学;2010年
7 周云;汉语越南语机器翻译实验系统[D];中国人民解放军外国语学院;2006年
8 秦少康;英语词汇歧义及英汉机器翻译中词义消歧上下限研究[D];厦门大学;2006年
9 潘璐;英汉机器翻译译文质量评价方法研究[D];苏州大学;2007年
10 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
中国重要报纸全文数据库 前10条
1 记者 刘阳子;中国专利信息传播与利用进入新阶段[N];中国知识产权报;2008年
2 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
3 ;我国首个基于搜索引擎的机器翻译系统问世[N];中国高新技术产业导报;2008年
4 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
5 董振东;到用户中去[N];中国计算机报;2003年
6 黄瑾刘洋 刘群;机器翻译的自动评测技术[N];计算机世界;2007年
7 李开复;互联网七大趋势[N];21世纪经济报道;2006年
8 李开复;网络改变生活 科技创新世界[N];中国企业报;2006年
9 刘慧敏;多语信息平台让你“读懂”七国语言[N];宁波日报;2007年
10 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978