收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于双语语料库的机器翻译关键技术研究

巢文涵  
【摘要】: 机器翻译的研究由来已久,但尚未能完全达到人类期望的目标。随着计算机软硬件技术的高速发展,以及语料库建设的完善,利用统计知识的机器翻译成为可能,翻译质量有望离人类的期望更近一步。自噪声信道模型,尤其是最大熵模型提出以来,机器翻译的一个中心任务是如何在模型中融入更有效的知识(特别是语言学知识),以进一步提高机器翻译的质量。本文聚焦于中文-英文之间的机器翻译问题,针对如何有效地在基于中英双语语料库的机器翻译中结合句法知识进行了一系列系统、深入的研究,并形成了一套完整的系统。具体来说,本文包括以下工作: 1.提出了一种基于句法知识的词对齐模型及方法。 词对齐是统计机器翻译的基础,词对齐的质量将会最终影响到机器翻译的质量。针对中英文之间词对齐的困难,本文提出一种词对齐改进模型,在词对齐过程中引入句法知识,以解释中-英词对齐之间复杂的词序变化。 本文首先将反向转录文法(ITG)内隐式的约束转换成显式的位置判断,从而可以有效地将ITG模型引入对数线性词对齐模型。同时,设计了句法分析树与ITG之间的相似度度量,将句法分析树的约束融入到基于ITG的词对齐模型中。通过整合两种类型的句法知识,使得可以对词对齐中的词序变化进行更好的约束。 2.提出了一种树-树映射的统计机器翻译模型及方法。 由于源句子和目标句子的词序差异,重定序(Reordering)处理翻译过程中目标词顺序的变化,它是统计机器翻译(SMT)过程中需要面对的难题之一。 本文提出一种树-树映射的统计机器翻译模型,通过在源句子的句法树与ITG树之间进行映射,实现在全局范围内约束目标短语的顺序变化;同时模型中包含了基于ITG的局部重定序模型特征,通过将两个块的方向预测分解成对两者相邻子块的方向预测,从而能够预测任意长度的两个块之间的翻译方向。局部模型与全局模型的集成,有效地解释了源句子与目标句子之间的复杂关系。 3.给出了一种基于双语信息的相似实例检索方法。 基于实例的机器翻译(EBMT)采用类比的原理进行翻译,在给定相似实例的条件性,能够产生流畅的译文。因此,如何在大规模的实例库中检索出相似实例,对于EBMT的质量具有重要意义。 本文提出一种新颖的相似实例检索方法,利用实例中的词对齐信息,设计了一系列相似度度量,用于计算输入的待翻译句子与训练语料库中实例的相似度,提高了检索的质量;同时,为加快检索的速度,设计了一个双层倒排索引表,提高了检索的效率。 4.提出了一种基于实例的统计机器翻译模型及方法。 前文提出的树-树模型是从源句子的角度出发,尽量确保生成的译文结构满足与源句子句法树的约束关系。因此,它无法保证目标句子结构的合理性。 本文提出一种混合模型,该模型是对树-树模型的扩展,在SMT中结合实例知识,以保证译文的结构合理性以及流畅性。同时,给出了一个基于实例的解码器,它结合统计知识以及实例信息,以提高解码的质量和效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
2 扎西加;高定国;;藏语语料库TEI标记规范探讨[J];中文信息学报;2011年04期
3 靳丹宁;;基于语料库调查中动词句型错误探析[J];安徽电子信息职业技术学院学报;2011年04期
4 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
5 杨雅婷;董兴华;王磊;吐尔洪·吾司曼;李晓;;电话信道维吾尔语口语语料库设计与研究[J];计算机工程与应用;2011年23期
6 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期
7 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
8 ;传媒资讯[J];记者摇篮;2011年05期
9 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
10 王晓莉;古里拉·阿东别克;;哈萨克语语句情感识别研究初探[J];计算机应用与软件;2011年08期
11 刘露;;浅析TF-IDF在企业组织风险中的研究[J];硅谷;2011年15期
12 倪崇嘉;张爱英;刘文举;徐波;;基于韵律间断层级的汉语韵律间断分类[J];计算机应用研究;2011年07期
13 胥桂仙;向春丞;翁彧;赵小兵;杨国胜;;基于栏目的藏文网页文本自动分类方法[J];中文信息学报;2011年04期
14 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期
15 边振兴;;WordNet中概念语义相似度IC参数模型研究[J];计算机工程与应用;2011年19期
16 侯敏;滕永林;刘俊;刘欣斐;;广播电视语言外文缩略词使用状况调查[J];北华大学学报(社会科学版);2011年04期
17 张野;杨建林;;基于KNN和SVM的中文文本自动分类研究[J];情报科学;2011年09期
18 辛浩;;基于关联规则的中文姓名识别方法[J];宿州学院学报;2011年05期
19 张海粟;马大明;邓智龙;;基于维基百科的语义知识库及其构建方法研究[J];计算机应用研究;2011年08期
20 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 王俭;基于语料库的海明威小说评论研究[D];上海外国语大学;2012年
3 巢文涵;基于双语语料库的机器翻译关键技术研究[D];国防科学技术大学;2008年
4 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
5 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
6 何婷婷;语料库研究[D];华中师范大学;2003年
7 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
8 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
9 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
10 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
7 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
8 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
9 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
10 李艳梅;基于语料库的中国英语学习者与本族语者阐发性话语标记语的对比分析[D];沈阳师范大学;2011年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978