收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高适应性基于实例的机器翻译中关键技术研究

任飞亮  
【摘要】: 互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。然而,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息,外语水平必将成为他能否顺利浏览信息内容的必要前提。而这也正是包括我们在内的许多研究机构及开发厂商之所以要大力发展机器翻译系统的原因所在。 在本论文中,作者指出一种具有高适应性的基于实例的机器翻译系统构建方法,该翻译系统建立于浅分析基础之上,具有易于构建、便于移植的特点,并能适用于多个语种间的基于实例的机器翻译系统构建,同时,作者围绕该翻译系统构建过程中所使用到的一些关键技术进行了相应研究。本文的主要工作及创新点列举如下。 1、提出一种基于自动机状态转换生成的EBMT翻译模型。该模型先用EBMT翻译方法中的匹配模块从语料库中选择一些与输入文本具有一定相似程度的翻译实例,然后对输入文本及翻译实例进行分析,根据分析结果而对它们分配相应的自动机状态,接着根据这些状态构建自动机并进行状态转换,最后根据状态转换的结果进行译文生成。在生成的过程中,使用语言模型来解决译词选择问题。该方法充分利用了EBMT中基于源语言相似的特性和SMT中基于目标语言相似的特性,同时,对于一些特定表达式采用基于规则的翻译技术。总体上讲,这一翻译模型以基于实例的翻译(EBMT)技术为主,用到了一些基于规则的翻译(RBMT)技术和基于统计的翻译(SMT)技术。相关实验证明该方法可以取得较高质量的译文结果。以这种生成方法为主要理论指导,我们参加了第三届中国统计机器翻译研讨会的英汉受限和汉英受限两项机器翻译评测任务,取得了英汉受限评测第五名、汉英受限第七名的成绩。 2、针对篇章级的双语资源中指代现象大量存在的问题,提出使用条件随机场(CRFs)和主动学习法(Active Learning)相结合进行指代消解任务的算法,并在该方法中,提出一种瀑布式的分层聚类算法,取得了很好的实验结果。以这些方法为主要理论指导,我们在NIST组织的2007ACE (Automatic Content Extraction)的中文EDR (Entity Detection and Recognize)评测任务中,取得了评测结果第二名的成绩。 3、提出一种基于N-gram语言模型进行机器翻译过程中词义消歧的方法,它把可读性作为词义选择的唯一依据。基本观点是:一个正确选择的歧义词的词义序列一定是使句子读起来最通顺的词义序列,并通过N-gram语言模型来评价句子的流利程度。它是一种易于实现的消歧方法,完全不受领域的限制,可充分利用网络上的资源来训练消歧模型,实验结果也表明该方法有效。 4、全面系统地进行了基于支持向量机(SVM)的中文分词研究,并在实验中,提出一种动态加权的特征值分配方法,实验结果表明该方法大幅提高了分词性能。 5、针对支持向量机进行分词任务研究中存在分类模型训练速度慢、训练出的模型中支持向量多的问题,提出一种通过消除冗余样本来提高训练速度的算法,并对该算法进行了理论证明。实验结果显示,该方法在消除近40%左右的冗余样本后使系统的性能几乎没有下降。 6、提出一种基于N-gram的TM(Translation Memory)系统构建方法,该方法具有通用性,不需要任何的语言分析工具。它可以同时满足句子级的精确翻译和子句级的参考译文推荐。基于该方法构建的TM系统既可以方便的做为一个独立的辅助翻译工具,又可以很好的做为我们翻译系统的第一个翻译引擎。实验表明,该方法速度快,可以满足对时间要求较高的应用场合。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨书卷;;“万能”方法的解决之道[J];科技导报;2011年19期
2 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
3 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
4 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
5 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
6 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
7 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
8 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
9 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
10 毛太田;傅佳;;通过Web数据挖掘为VILA语言搜集多语种词汇[J];中国科技信息;2011年16期
11 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
12 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
13 谷俊;王昊;;基于领域中文文本的术语抽取方法研究[J];现代图书情报技术;2011年04期
14 庞观松;张黎莎;蒋盛益;;个性化跨语言学术搜索技术研究[J];情报学报;2011年08期
15 占飞;刘挺;;面向英文辅助写作的词语相似度应用研究[J];智能计算机与应用;2011年03期
16 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
17 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
18 佟兴帆;邓辉宇;李志明;;上海光源产品管理系统及其全文检索子系统的改进[J];核技术;2011年07期
19 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
20 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期
中国重要会议论文全文数据库 前10条
1 姚天顺;杨莹;;关于机器翻译的评测问题[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 奚宁;赵迎功;汤光超;李中华;刘友强;戴新宇;陈家骏;;南京大学第七届机器翻译研讨会评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 何彦青;石崇德;于薇;张均胜;王惠临;;中国科学技术信息研究所CWMT'2011技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 梁芳丽;陈雷;李淼;何绵涛;刘绘;;第七届全国机器翻译研讨会中科院智能所评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 希夏姆.马利克;;汉阿机译研究(一) 从汉语单句若干结构谈论汉阿机译[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 肖桐;张浩;李强;路琦;朱靖波;任飞亮;王会珍;;CWMT2011东北大学参评系统NiuTrans介绍(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
7 麦热哈巴.艾力;米日古.肉孜;撒依达;江阿古丽;吐尔根.伊布拉音;;新疆大学CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
8 周玉;翟飞飞;张家俊;涂眉;陈钰枫;宗成庆;;多语言文本机器翻译系统——中科院自动化所CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 李博渊;奚宁;黄书剑;张建兵;陈家骏;;一种适用于机器翻译的汉语分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 李贤华;郑仲光;孟遥;于浩;;第七届全国机器翻译研讨会(CWMT2011)富士通研究开发中心技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
2 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
3 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
4 百顺;日蒙机器翻译及相关技术研究[D];内蒙古大学;2012年
5 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
6 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
7 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
9 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
10 雒自清;语义块类型、构成及变换的分析与处理[D];中国科学院研究生院(声学研究所);2004年
中国硕士学位论文全文数据库 前10条
1 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
2 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
3 焦世斗;大规模网页中双语命名实体挖掘的研究与实现[D];大连理工大学;2009年
4 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
5 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
6 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
7 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
8 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
9 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
10 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 凌子浪;机器翻译的未来不可估量[N];计算机世界;2001年
2 《中国电脑教育报》记者 晨风;机器翻译如何是好?[N];中国电脑教育报;2001年
3 赵迎华;机器翻译如何是好[N];光明日报;2001年
4 ;机器翻译在电子政务系统建设中的应用[N];中国电脑教育报;2004年
5 ;机器翻译 在电子政务系统建设中的应用[N];中国电脑教育报;2004年
6 刘 莎;语义约定全文翻译: 机器翻译的“日心说”?[N];计算机世界;2002年
7 何艳霞;韩国完善专利信息系统机器翻译和英文检索功能[N];中国知识产权报;2007年
8 刘仁;“语义分析”升级专利机器翻译[N];中国知识产权报;2008年
9 刘素元、艾文;给机器翻译装上“大脑”[N];中国计算机报;2002年
10 李佳师;拓展嵌入式空间 中软可借力微软[N];中国电子报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978