收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

统计机器翻译若干关键技术研究

薛永增  
【摘要】: 机器翻译简单地说就是用计算机将一种自然语言翻译为另一种自然语言。机器翻译可以看作是一个决策问题,目前机器翻译的主要研究方向包括基于规则的方法、基于中间语言的方法、基于实例的方法和统计方法。目前统计机器翻译方法具有较大的优势,成为研究的热点。统计机器翻译模型主要包括基于词的、基于短语的和基于句法的模型。本文主要对基于短语的和基于句法的统计翻译模型的相关技术进行了研究。本文首先比较了三个经典的机器翻译方法,深入分析了这些方法的优缺点。在此基础上,研究了基于短语的机器翻译方法中短语互译对的抽取问题。对于基于句法的统计翻译方法,则重点研究了解码策略,提出了正向解码算法;同时提出了基于句法的短语统计翻译调序模型。最后,提出了基于信息抽取的摘译方法,结合了统计和规则各自的优势。具体地讲,本文从以下几个方面开展了研究: 1.分析了经典的统计机器翻译方法,并尝试有别于传统方法的翻译策略。通过对实验结果的分析,指出了目前几种经典统计机器翻译方法的优势与不足之处,特别是针对传统的基于句法的统计翻译方法分析了它的主要问题和困难。提出了本文对传统模型改进方案的总体框架,其中提出了句法和短语、规则和统计方法的结合策略,为后续研究奠定了基础。 2.研究了基于n-best对齐结果的短语互译对的抽取问题。提出非严格短语抽取方法,并采用抽取约束策略来进一步加强短语抽取的效果。分别提出了基于对齐点交集的抽取约束策略和基于词汇相似度的抽取约束策略,重点研究和比较了三种基于词汇相似度的抽取约束策略——DICE系数、PHI平方系数和对数似然比。实验表明非严格短语抽取方法能够有效地从n-best词对齐结果中抽取短语互译对,通过抽取约束策略能够进一步提高译文质量。与基于单一对齐的传统短语抽取方法相比较,利用非严格短语抽取方法和n-best对齐结果能够显著提高翻译译文质量。 3.研究了基于句法的统计机器翻译模型的解码问题。分析了反向解码的缺点:无法有效利用句法分析树的结构信息指导翻译,然后提出了正向解码的思路。提出了两种正向解码方法:基于集束搜索的正向解码算法和基于贪心搜索的正向解码算法。实验表明正向解码方法好于反向解码,说明正向解码能够更加有效地利用句法结构信息指导翻译。将句法结构信息引入短语翻译模型,提出了基于句法的短语机器翻译调序模型。该模型的提出有助于解决长距离调序难题。 4.提出了基于信息抽取的摘译方法,以满足当前机器翻译技术水平下信息浏览的需要。该方法首先对句子中的关键信息进行抽取,过滤掉次要信息,然后仅仅利用抽取出来的关键信息进行翻译。重点研究了摘译过程中统计和规则的结合策略,提出利用语言模型对来自不同翻译模型的译文进行选择的方法。实验结果表明摘译有助于避免生成杂乱的译文,得到清晰的翻译结果,并且关键信息丢失不严重。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈志雄;朱向庆;;基于特征词统计的网页结构化信息抽取[J];嘉应学院学报;2011年02期
2 巢文涵;李舟军;陈跃新;;一种用于机器翻译的相似句对检索方法[J];计算机工程与科学;2008年09期
3 王博;杨沐昀;李生;赵铁军;;中文全词消歧在机器翻译系统中的性能评测[J];自动化学报;2008年05期
4 李枫;;基于短语的统计机器翻译[J];山西财经大学学报;2008年S1期
5 程一军;日本专家谈机器翻译系统[J];机器人;1985年03期
6 汪劲;耿立大;;机器翻译及其基本概念和常用方法[J];情报科学;1988年02期
7 ;计算机检索、机器翻译[J];电子科技文摘;2002年02期
8 李生;赵铁军;周明;王跃进;邱祥辉;;机器翻译语言模型的探讨[J];情报科学;1989年03期
9 计丽丽;;机器翻译系统发展与研究[J];中国新技术新产品;2011年13期
10 石崇德;王惠临;;本体在汉英机器翻译中的应用研究[J];图书情报工作;2006年09期
11 曾微维;郑善贤;成钢;;基于统计的机器翻译在嵌入式系统上的实现[J];计算机系统应用;2009年09期
12 官却多杰;欧珠;;藏文机器翻译用句型转换算法研究[J];西藏科技;2011年05期
13 许亚梅;张立臣;;基于实例的机器翻译方法及其优化策略探讨[J];福建电脑;2006年05期
14 刘金红,王挺,陆余良;基于XML的译文生成关键技术研究[J];计算机工程与科学;2005年08期
15 黄金柱;李青;;基于大规模语料库的多引擎语言翻译模型的构建[J];洛阳师范学院学报;2010年02期
16 曾红卫;;为什么电脑能翻译?[J];上海微型计算机;1998年06期
17 吴华;徐甜;;机器翻译中源语分析的研究与探讨[J];安阳工学院学报;2006年02期
18 陆正海;;网页的机器翻译[J];科技信息;2008年31期
19 袁小于;;基于规则的机器翻译技术综述[J];重庆文理学院学报(自然科学版);2011年03期
20 李维;关于E-ch/A世一汉/英机器翻译系统及其汉英目标语的综合[J];中文信息学报;1988年01期
中国重要会议论文全文数据库 前10条
1 魏玮;于东;王韦华;徐波;;中科院自动化所评测技术报告(SYSTEMⅡ)[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
2 王博;蒋宏飞;梁华参;张春越;孙加东;赵铁军;刘树杰;马永亮;王欣欣;;CWMT2008机器翻译评测技术报告[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
3 杨攀;张建;李淼;乌达巴拉;;基于统计方法的短语翻译模型过滤器设计[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
4 罗维;吉宗诚;吕雅娟;刘群;;一种改进词语对齐的新方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 张步峰;何丕廉;张冬冬;李沐;周明;;短语切分概率在统计机器翻译系统中的应用[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 巢文涵;李舟军;;ZZX_MT系统评测报告[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
7 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 熊维;王震;于新;刘汇丹;诺明花;马龙龙;张立强;洪锦玲;吴健;;ISCAS机器翻译系统与评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 刘树杰;杨沐昀;赵铁军;;翻译规则优化中的分层优化方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 邓爱明;张明荣;梅华生;;基于特征值的零构件疲劳可靠性统计方法[A];第七届全国MTS材料试验学术会议论文集(一)[C];2007年
中国博士学位论文全文数据库 前10条
1 薛永增;统计机器翻译若干关键技术研究[D];哈尔滨工业大学;2007年
2 方淼;语义单元自动获取研究[D];大连理工大学;2008年
3 王博;机器翻译系统的自动评价及诊断方法研究[D];哈尔滨工业大学;2010年
4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
5 马延军;干扰对齐及其在现代无线通信系统中的应用[D];西安电子科技大学;2012年
6 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
7 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
8 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
9 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
10 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 娜步青;基于统计的蒙汉机器翻译系统[D];内蒙古大学;2006年
2 蒋宏飞;EBMT翻译模型自动构建研究[D];哈尔滨工业大学;2006年
3 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
4 周锦姝;基于Web和信息抽取技术的自动术语翻译[D];天津大学;2007年
5 贾剑峰;依存文法在汉英统计机器翻译中的应用[D];厦门大学;2008年
6 朱海;基于混淆网络的机器翻译系统融合研究[D];中国科学技术大学;2010年
7 魏瑾;基于统计的汉英机器翻译技术的研究[D];国防科学技术大学;2006年
8 何晓峰;基于短语的汉英统计机器翻译系统的设计与实现[D];山东大学;2009年
9 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
10 赵文;基于本体的Web信息抽取系统的研究与实现[D];沈阳工业大学;2007年
中国重要报纸全文数据库 前10条
1 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
2 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
3 农调;国际耕地面积统计方法的启示[N];中国信息报;2002年
4 记者 方敏;上海离婚率激增20倍?[N];解放日报;2005年
5 记者 江涛;进一步提高统计数据质量[N];运城日报;2008年
6 记者 周英峰 刘铮;提高透明度,国家统计局“开门”听意见[N];新华每日电讯;2009年
7 ;上海市积极探索新材料统计方法[N];中国信息报;2002年
8 本报记者 王海燕;让男女两性公平获得公共资源[N];解放日报;2010年
9 本报驻美国记者 张孟军;统计方法应跟上知识经济步伐[N];科技日报;2006年
10 王海燕;上海将扩大分性别统计覆盖范围[N];中国妇女报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978