基于短语的蒙汉统计机器翻译研究
【摘要】:随着计算机性能的逐渐提高,统计方法在机器翻译中得到了广泛的应用。统计机器翻译方法主要有基于词的翻译模型、基于短语的翻译模型和基于句法的翻译模型。基于短语的翻译模型比基于词的翻译模型在翻译质量上提高了很多,同时基于短语的翻译模型比基于句法的翻译模型具有模型简单、训练速度快、解码效率高等优势。因此基于短语的机器翻译方法逐渐成为了统计机器翻译领域的研究热点。
首先,本文阐述了统计机器翻译的相关理论,并结合蒙古文信息处理技术的现状,利用国际现有开源软件搭建了一个基于短语的蒙汉统计机器翻译系统,该系统将蒙古语文本自动翻译成汉语文本。
其次,本文建立了开发集和测试集,并通过收集和建立这两种途径获得一定规模的蒙汉平行语料库。在此基础上对蒙汉统计机器翻译系统做了一些实验。其中以规模为8万对句的蒙汉平行语料库作为翻译模型的训练语料,将规模为400对句的测试语料进行开放测试之后得到的评测结果BLEU和NIST值分别为0.2353和5.1859。通过实验结果发现,与国际先进系统相比,翻译结果的差距较大,研究中仍存在一些问题,比如:译文中存在未登陆词,语序混乱及语法、语义歧义等问题。
最后,针对上述问题,为提高蒙汉机器翻译的性能,本文将蒙古语言的词性信息引入到统计模型中进行了试验。为验证蒙古语言的词性信息能否提高蒙汉机器翻译的性能,本文对添加蒙古语言的词性标注信息前后的蒙汉机器翻译系统分别做了实验。实验结果表明,引入蒙古语言的词性信息之后,蒙汉机器翻译系统的基准(baseline)实验结果BLEU和NIST值均提高了0.0299和0.2236。而融合词性标注信息的翻译模型在一定程度上解决了由于双语训练语料规模不够大而导致的未登录词和语义歧义问题。总的来说,在蒙汉机器翻译中应用语言学知识能够有效改善蒙汉机器翻译系统的性能。