高适应性基于实例的机器翻译中关键技术研究
【摘要】:
互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。然而,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息,外语水平必将成为他能否顺利浏览信息内容的必要前提。而这也正是包括我们在内的许多研究机构及开发厂商之所以要大力发展机器翻译系统的原因所在。
在本论文中,作者指出一种具有高适应性的基于实例的机器翻译系统构建方法,该翻译系统建立于浅分析基础之上,具有易于构建、便于移植的特点,并能适用于多个语种间的基于实例的机器翻译系统构建,同时,作者围绕该翻译系统构建过程中所使用到的一些关键技术进行了相应研究。本文的主要工作及创新点列举如下。
1、提出一种基于自动机状态转换生成的EBMT翻译模型。该模型先用EBMT翻译方法中的匹配模块从语料库中选择一些与输入文本具有一定相似程度的翻译实例,然后对输入文本及翻译实例进行分析,根据分析结果而对它们分配相应的自动机状态,接着根据这些状态构建自动机并进行状态转换,最后根据状态转换的结果进行译文生成。在生成的过程中,使用语言模型来解决译词选择问题。该方法充分利用了EBMT中基于源语言相似的特性和SMT中基于目标语言相似的特性,同时,对于一些特定表达式采用基于规则的翻译技术。总体上讲,这一翻译模型以基于实例的翻译(EBMT)技术为主,用到了一些基于规则的翻译(RBMT)技术和基于统计的翻译(SMT)技术。相关实验证明该方法可以取得较高质量的译文结果。以这种生成方法为主要理论指导,我们参加了第三届中国统计机器翻译研讨会的英汉受限和汉英受限两项机器翻译评测任务,取得了英汉受限评测第五名、汉英受限第七名的成绩。
2、针对篇章级的双语资源中指代现象大量存在的问题,提出使用条件随机场(CRFs)和主动学习法(Active Learning)相结合进行指代消解任务的算法,并在该方法中,提出一种瀑布式的分层聚类算法,取得了很好的实验结果。以这些方法为主要理论指导,我们在NIST组织的2007ACE (Automatic Content Extraction)的中文EDR (Entity Detection and Recognize)评测任务中,取得了评测结果第二名的成绩。
3、提出一种基于N-gram语言模型进行机器翻译过程中词义消歧的方法,它把可读性作为词义选择的唯一依据。基本观点是:一个正确选择的歧义词的词义序列一定是使句子读起来最通顺的词义序列,并通过N-gram语言模型来评价句子的流利程度。它是一种易于实现的消歧方法,完全不受领域的限制,可充分利用网络上的资源来训练消歧模型,实验结果也表明该方法有效。
4、全面系统地进行了基于支持向量机(SVM)的中文分词研究,并在实验中,提出一种动态加权的特征值分配方法,实验结果表明该方法大幅提高了分词性能。
5、针对支持向量机进行分词任务研究中存在分类模型训练速度慢、训练出的模型中支持向量多的问题,提出一种通过消除冗余样本来提高训练速度的算法,并对该算法进行了理论证明。实验结果显示,该方法在消除近40%左右的冗余样本后使系统的性能几乎没有下降。
6、提出一种基于N-gram的TM(Translation Memory)系统构建方法,该方法具有通用性,不需要任何的语言分析工具。它可以同时满足句子级的精确翻译和子句级的参考译文推荐。基于该方法构建的TM系统既可以方便的做为一个独立的辅助翻译工具,又可以很好的做为我们翻译系统的第一个翻译引擎。实验表明,该方法速度快,可以满足对时间要求较高的应用场合。
|
|
|
|
1 |
胡蓉;词义消歧方法初探[J];洛阳工业高等专科学校学报;2005年01期 |
2 |
郭池
,陈家骏
,王启祥;一种基于语料库的词义消歧策略[J];计算机工程与应用;2003年35期 |
3 |
全昌勤,何婷婷,姬东鸿,刘辉;基于义类的无导词义消歧方法的研究[J];计算机应用研究;2005年04期 |
4 |
荀恩东,李生,赵铁军;基于汉语二元同现的统计词义消歧方法研究[J];高技术通讯;1998年10期 |
5 |
李生;张晶;赵铁军;姚建民;;词义消歧研究的现状与发展方向[J];计算机科学;2001年09期 |
6 |
全昌勤,何婷婷,姬东鸿,刘辉;从搭配知识获取最优种子的词义消歧方法[J];中文信息学报;2005年01期 |
7 |
陈浩;何婷婷;姬东鸿;;基于MDL聚类的无导词义消歧[J];小型微型计算机系统;2005年10期 |
8 |
李纲;寇广增;;自举在词义消歧中的应用及其关键问题[J];情报学报;2010年01期 |
9 |
全昌勤,何婷婷,姬东鸿,刘辉;基于指示词的词义消歧方法[J];计算机工程;2005年16期 |
10 |
何婷婷;谢芳;;利用BP神经网络的中文词义消歧模型[J];华中师范大学学报(自然科学版);2005年04期 |
11 |
陈笑蓉;秦进;;基于最大熵原理的汉语词义消歧[J];计算机科学;2005年05期 |
12 |
曲维光;陈小荷;董宇;穗志方;;基于语境计算模型的汉语词义消歧(英文)[J];广西师范大学学报(自然科学版);2006年04期 |
13 |
王博;杨沐昀;李生;赵铁军;;中文全词消歧在机器翻译系统中的性能评测[J];自动化学报;2008年05期 |
14 |
李辉;张琦;卢湖川;杨德礼;;基于知网的中文常问问答系统[J];计算机工程;2008年23期 |
15 |
张明宝;马静;;一种基于知网的中文词义消歧算法[J];计算机技术与发展;2009年02期 |
16 |
刘商飞;张志祥;;基于改进的Bayes判别法的中文多义词消歧[J];计算机与数字工程;2009年10期 |
17 |
王瑞琴;孔繁胜;潘俊;;基于WordNet的无导词义消歧方法[J];浙江大学学报(工学版);2010年04期 |
18 |
金澎;;词义消歧和词义消歧评测简介[J];术语标准化与信息技术;2010年03期 |
19 |
张仰森;郭江;;四种统计词义消歧模型的分析与比较[J];北京信息科技大学学报(自然科学版);2011年02期 |
20 |
谢芳;胡泉;;基于BP神经网络的词义消歧模型[J];计算机工程与应用;2006年12期 |
|