收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高适应性基于实例的机器翻译中关键技术研究

任飞亮  
【摘要】: 互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。然而,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息,外语水平必将成为他能否顺利浏览信息内容的必要前提。而这也正是包括我们在内的许多研究机构及开发厂商之所以要大力发展机器翻译系统的原因所在。 在本论文中,作者指出一种具有高适应性的基于实例的机器翻译系统构建方法,该翻译系统建立于浅分析基础之上,具有易于构建、便于移植的特点,并能适用于多个语种间的基于实例的机器翻译系统构建,同时,作者围绕该翻译系统构建过程中所使用到的一些关键技术进行了相应研究。本文的主要工作及创新点列举如下。 1、提出一种基于自动机状态转换生成的EBMT翻译模型。该模型先用EBMT翻译方法中的匹配模块从语料库中选择一些与输入文本具有一定相似程度的翻译实例,然后对输入文本及翻译实例进行分析,根据分析结果而对它们分配相应的自动机状态,接着根据这些状态构建自动机并进行状态转换,最后根据状态转换的结果进行译文生成。在生成的过程中,使用语言模型来解决译词选择问题。该方法充分利用了EBMT中基于源语言相似的特性和SMT中基于目标语言相似的特性,同时,对于一些特定表达式采用基于规则的翻译技术。总体上讲,这一翻译模型以基于实例的翻译(EBMT)技术为主,用到了一些基于规则的翻译(RBMT)技术和基于统计的翻译(SMT)技术。相关实验证明该方法可以取得较高质量的译文结果。以这种生成方法为主要理论指导,我们参加了第三届中国统计机器翻译研讨会的英汉受限和汉英受限两项机器翻译评测任务,取得了英汉受限评测第五名、汉英受限第七名的成绩。 2、针对篇章级的双语资源中指代现象大量存在的问题,提出使用条件随机场(CRFs)和主动学习法(Active Learning)相结合进行指代消解任务的算法,并在该方法中,提出一种瀑布式的分层聚类算法,取得了很好的实验结果。以这些方法为主要理论指导,我们在NIST组织的2007ACE (Automatic Content Extraction)的中文EDR (Entity Detection and Recognize)评测任务中,取得了评测结果第二名的成绩。 3、提出一种基于N-gram语言模型进行机器翻译过程中词义消歧的方法,它把可读性作为词义选择的唯一依据。基本观点是:一个正确选择的歧义词的词义序列一定是使句子读起来最通顺的词义序列,并通过N-gram语言模型来评价句子的流利程度。它是一种易于实现的消歧方法,完全不受领域的限制,可充分利用网络上的资源来训练消歧模型,实验结果也表明该方法有效。 4、全面系统地进行了基于支持向量机(SVM)的中文分词研究,并在实验中,提出一种动态加权的特征值分配方法,实验结果表明该方法大幅提高了分词性能。 5、针对支持向量机进行分词任务研究中存在分类模型训练速度慢、训练出的模型中支持向量多的问题,提出一种通过消除冗余样本来提高训练速度的算法,并对该算法进行了理论证明。实验结果显示,该方法在消除近40%左右的冗余样本后使系统的性能几乎没有下降。 6、提出一种基于N-gram的TM(Translation Memory)系统构建方法,该方法具有通用性,不需要任何的语言分析工具。它可以同时满足句子级的精确翻译和子句级的参考译文推荐。基于该方法构建的TM系统既可以方便的做为一个独立的辅助翻译工具,又可以很好的做为我们翻译系统的第一个翻译引擎。实验表明,该方法速度快,可以满足对时间要求较高的应用场合。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡蓉;词义消歧方法初探[J];洛阳工业高等专科学校学报;2005年01期
2 郭池 ,陈家骏 ,王启祥;一种基于语料库的词义消歧策略[J];计算机工程与应用;2003年35期
3 全昌勤,何婷婷,姬东鸿,刘辉;基于义类的无导词义消歧方法的研究[J];计算机应用研究;2005年04期
4 荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期
5 李生;张晶;赵铁军;姚建民;;词义消歧研究的现状与发展方向[J];计算机科学;2001年09期
6 全昌勤,何婷婷,姬东鸿,刘辉;从搭配知识获取最优种子的词义消歧方法[J];中文信息学报;2005年01期
7 陈浩;何婷婷;姬东鸿;;基于MDL聚类的无导词义消歧[J];小型微型计算机系统;2005年10期
8 李纲;寇广增;;自举在词义消歧中的应用及其关键问题[J];情报学报;2010年01期
9 全昌勤,何婷婷,姬东鸿,刘辉;基于指示词的词义消歧方法[J];计算机工程;2005年16期
10 何婷婷;谢芳;;利用BP神经网络的中文词义消歧模型[J];华中师范大学学报(自然科学版);2005年04期
11 陈笑蓉;秦进;;基于最大熵原理的汉语词义消歧[J];计算机科学;2005年05期
12 曲维光;陈小荷;董宇;穗志方;;基于语境计算模型的汉语词义消歧(英文)[J];广西师范大学学报(自然科学版);2006年04期
13 王博;杨沐昀;李生;赵铁军;;中文全词消歧在机器翻译系统中的性能评测[J];自动化学报;2008年05期
14 李辉;张琦;卢湖川;杨德礼;;基于知网的中文常问问答系统[J];计算机工程;2008年23期
15 张明宝;马静;;一种基于知网的中文词义消歧算法[J];计算机技术与发展;2009年02期
16 刘商飞;张志祥;;基于改进的Bayes判别法的中文多义词消歧[J];计算机与数字工程;2009年10期
17 王瑞琴;孔繁胜;潘俊;;基于WordNet的无导词义消歧方法[J];浙江大学学报(工学版);2010年04期
18 金澎;;词义消歧和词义消歧评测简介[J];术语标准化与信息技术;2010年03期
19 张仰森;郭江;;四种统计词义消歧模型的分析与比较[J];北京信息科技大学学报(自然科学版);2011年02期
20 谢芳;胡泉;;基于BP神经网络的词义消歧模型[J];计算机工程与应用;2006年12期
中国重要会议论文全文数据库 前10条
1 吴崇斌;张全;;上下文边界可变的贝叶斯分类器词义消歧方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 余晓峰;刘鹏远;赵铁军;;一种基于《知网》的汉语词语词义消歧方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 张云涛;龚玲;王永成;;基于语料库的朴素贝叶斯方法的词义消歧[A];2005年中国智能自动化会议论文集[C];2005年
5 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 吴云芳;温珍珊;段慧明;俞士汶;;语料库粗粒度词义标注[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 秦颖;王小捷;;组合中文词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 何径舟;王厚峰;;基于特征自动选取的汉语词义消歧[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 于丽丽;丁德鑫;曲维光;陈小荷;石民;;基于多分类器集成的古代汉语词义消歧[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 王惠;;汉英机器翻译中基于大型语义词典的汉语词义消歧[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 车超;知识自动获取的词义消歧方法[D];大连理工大学;2010年
2 涂锟;基于自然语言与记忆再重构的常识推理模型[D];华南理工大学;2010年
3 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
4 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
5 王菁华;文本中知识的获取[D];北京邮电大学;2008年
6 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
7 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
8 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
10 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
中国硕士学位论文全文数据库 前10条
1 史俊冰;问答系统中词义消歧与关键词扩展研究[D];太原理工大学;2011年
2 栾博;基于句法树的中文词义消歧方法研究[D];哈尔滨理工大学;2014年
3 高宁宁;基于混合特征和规则的词义消歧研究[D];吉林大学;2014年
4 詹靓雯;基于知网的中文词义消歧研究[D];中国计量学院;2012年
5 李小贻;基于语义概念的词义消歧方法[D];华中师范大学;2013年
6 魏晓亮;概念与属性约束知识抽取及其应用研究[D];北方工业大学;2013年
7 邓宾;中文词义消岐研究[D];昆明理工大学;2009年
8 万海旭;基于WordNet的词义消歧研究[D];吉林大学;2013年
9 陈浩;基于二阶上下文的无导词义消歧研究[D];华中师范大学;2005年
10 秦少康;英语词汇歧义及英汉机器翻译中词义消歧上下限研究[D];厦门大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978