收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

英汉平行语料库句子级对齐研究及其在机器翻译中的应用

赵小曼  
【摘要】:随着计算机技术的提高和人们日益增长的沟通需要,高质量的机器翻译系统成为人们迫切需要解决的问题。20世纪90年代以来,Mona Baker等人开始将语料库语言学应用于翻译研究,从此开启双语语料库的研究历史。目前平行语料库的研究已经成为语料库研究的一个重点,随着从事语言研究和机器翻译研究的学者对平行语料库重要性的逐渐认识,国内外很多研究机构都致力于平行语料库的建设。 基于实例的机器翻译系统的实现基础即是高质量的对齐平行语料库。只有实现了平行语料语句的高精度匹配,基于实例的机器翻译系统才可能得以实现。 本文在前人研究的基础上,主要对英汉平行双语语料库中句子级别的自动对齐技术及基于实例的机器翻译系统中的语料库构建做出一定的有益尝试。语料库里的源语和目标语实例要按照句子级别的翻译单位一一对齐,并确保对齐质量,这是一个以自动机器翻译为目标的平行语料库具备实用性的首要条件;而语料库中对齐语料的扩充和更新问题,是其长期发挥效用的基础保障,是一个以自动机器翻译为目标的平行语料库具备实用性的必要条件。 本文即通过自行建立小型英汉平行语料库的实践,建立应用于机器翻译的平行语料库语料的整理、加工规范,并通过机器自动对齐结果和人工手动对齐结果的对比,对建库过程中遇到的问题进行思考,包括断句标识的选用问题、多对多类型语句的对齐匹配问题、基于互联网语料的机器翻译中平行语料库的构建规范问题等。并带着这些问题进行了一系列的测试,提出相应的解决办法: 一、使用标点符号作为句子层级对齐工作的重要辅助信息。由于基于长度的对齐方法无法正确识别成对符号,因此我们将断句标识改为只有:句号、分号、问号、感叹号四种,而不再采用冒号、双引号、单引号、括号作为句子边界。 二、引入锚点信息辅助对齐工作。由于从互联网抓取的平行语料中,专名结构、数字、日期在文本中出现的频率相当高,而这些信息相对一篇文章的内部,有相对唯一并较为确定的位置和顺序,因此,将它们作为锚点信息来辅助对齐工作,可以收到很好的效果,有效的提高对齐结果的准确率。 三、分步匹配。在一对多、多对一的匹配类型中,只有通过分步匹配把该组对齐单位的配对模式从一组一对多模式改为两组甚至三组一对一模式,以减少对齐错误的蔓延。即是指在这种情况下,将一个中文句子重复的多次与两个或三个英文句子相对齐。这虽然牺牲了对齐结果的准确率,但是可以有效的减少其错误蔓延。 四、应用于机器翻译的平行语料库的系统构建问题。在建立基于互联网语料实例的机器翻译系统的过程中,建议选取页面格式简单、译文质量较好的网站,比如高校论文数据库、期刊库、中英文翻译作品库等。 五、尝试引入“专家控制系统”提高译文质量。想要达到翻译的最高境界—“信、达、雅”,我们必须在应用于机器翻译的语料库构建过程中,引入世界知识库。可以考虑智能控制学科中关于“专家控制系统”模型的构建方式,吸收当代翻译家的思维模式和翻译技巧,建立协同式专家系统,更好的提高译文质量。


知网文化
【相似文献】
中国期刊全文数据库 前10条
1 周俏丽;蔡东风;张桂平;;面向专利文本的单语模板的自动获取方法[J];语言文字应用;2010年01期
2 王磊;;多语种互译:网络真正无国界[J];中国报道;2010年04期
3 李硕;;论机器翻译的不可行性[J];学习月刊;2010年03期
4 刘克强;;利用Trados的WinAlign进行汉英平行语料库的句对齐[J];中国科教创新导刊;2010年07期
5 冯志伟;;信息时代的多语言问题和对策[J];术语标准化与信息技术;2010年02期
6 姜福日;;机器翻译的进步[J];英语沙龙(实战版);2010年06期
7 宾科;;文化语境与机器翻译的局限性[J];文教资料;2010年17期
8 张绪华;;基于对译信息的汉英句子自动对齐[J];当代外语研究;2010年09期
9 马建军;;基于规则和统计的机器翻译方法歧义问题比较分析[J];大连理工大学学报(社会科学版);2010年03期
10 杨宪泽;;汉英机器翻译的单词处理研究[J];西南民族大学学报(自然科学版);2009年03期
中国重要会议论文全文数据库 前10条
1 李根全;;提升计算教学中操作的思维价值[A];国家教师科研基金十一五阶段性成果集(江苏卷)[C];2010年
2 修国基;王宇华;刘桂雄;王宪生;;基于Imageware的虹吸式坐便器的逆向设计[A];广州市仪器仪表学会2009年学术年会论文集[C];2010年
3 钱多秀;;译者的素养要求[A];2010年中国翻译职业交流大会论文集[C];2010年
4 张龙哺;;新时代的计算机智能翻译技术[A];2010年中国翻译职业交流大会论文集[C];2010年
5 冯志伟;;机器翻译:从基于规则的技术到基于统计的技术[A];2010年中国翻译职业交流大会论文集[C];2010年
6 ;“云翻译”引擎提高可信赖的翻译效率[A];2010年中国翻译职业交流大会论文集[C];2010年
7 申文明;刘连芳;黄家裕;温家凯;;基于概率模型的汉越人名音译[A];广西计算机学会2010年学术年会论文集[C];2010年
8 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
9 王鹏;王涛;丁大勇;张益民;毕文元;包英泽;;基于增强现实技术的三维导航[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
10 才让加;头旦才让;周毛先;;藏语语料库加工方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 克里斯朵夫·施塔勒;西汉字东字母[D];中央美术学院;2010年
2 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
3 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
4 周军;数字电视服务系统互动技术研究[D];中国科学技术大学;2010年
5 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
6 张永兵;统计推断模型及其在视频编码中的应用[D];哈尔滨工业大学;2010年
7 李秀英;基于历史典籍双语平行语料库的术语对齐研究[D];大连理工大学;2010年
8 段谟杰;蛋白质结构预测与结构比对方法的研究[D];华中科技大学;2009年
9 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
10 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
中国硕士学位论文全文数据库 前10条
1 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
2 田相坤;基于概念分层的本体匹配策略的研究与实现[D];华东理工大学;2011年
3 赵军;基于流形对齐的论坛个性化推荐与检索[D];浙江大学;2011年
4 何琛;心电信号中T波电交替的检测算法研究[D];浙江大学;2011年
5 卢延科;面向中文专利文献的相似例句检索算法的研究[D];沈阳航空工业学院;2010年
6 胡永华;英文译文质量自动评测技术的研究[D];沈阳航空工业学院;2010年
7 李宏毅;机器翻译中英译汉长句分析研究[D];河北大学;2010年
8 祁航;人脸特征分析与人脸区域定位研究[D];上海交通大学;2010年
9 刘孜学;基于IEEE802.3ba标准下100Gb/s以太网PCS层多通道分发机制的研究与逻辑实现[D];西南交通大学;2010年
10 李函章;统计机器翻译中语料选择方法研究[D];黑龙江大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 霍光;让高级格式化摆脱低效[N];中国计算机报;2011年
2 周聿;怎样打印和粘贴名址签条[N];中国邮政报;2010年
3 本报记者 薛娟;未来搜索:没有搜索的搜索[N];中国经济时报;2010年
4 周聿;怎样打印和粘贴名址签条[N];中国邮政报;2010年
5 本报记者 薛娟;未来搜索:没有搜索的搜索[N];中国经济时报;2010年
6 周聿;怎样打印和粘贴名址签条[N];中国邮政报;2010年
7 本报记者 薛娟;未来搜索:没有搜索的搜索[N];中国经济时报;2010年
8 周聿;怎样打印和粘贴名址签条[N];中国邮政报;2010年
9 本报记者 薛娟;未来搜索:没有搜索的搜索[N];中国经济时报;2010年
10 周聿;怎样打印和粘贴名址签条[N];中国邮政报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978