面向汉英专利文献的神经网络翻译模型的集外词翻译研究
【摘要】:机器翻译(Machine Translation,MT)的目的是为源语言找到一个意思最为相近的目标语言。从本质上来看,机器翻译完成的是一个序列到序列的任务。近年来随着深度神经网络(Deep Neural Network,DNN)在语音识别和图像处理等方面取得突破性进展,研究人员开始着手使用深度神经网络处理符号变量方面的问题,例如自然语言处理领域的机器翻译任务。神经网络机器翻译(Neural Machine Translation,NMT)包含编码器和解码器两个神经网络,编码器把源语言转化成一个向量表示,解码器根据源语言的向量表示加上目标语言的历史信息生成目标语言的词序列。为了控制计算复杂度,大多数的NMT系统会限制源语言和目标语言的词典大小,一般设置为三万词到八万词之间。对于不在词典中的词,也就是集外词,使用符号“UNK”来代替。集外词带来几个问题,一个是在测试过程中,模型不能够生成合适的翻译结果;另一个是集外词导致源语言句子语义无法正确表示,加重翻译结果的歧义现象;第三个是训练语料中源语言和目标语言句子结构被严重破坏,神经网络参数质量不高。在专利文献语料中存在大量的低频词,导致这几个问题更为严重。本论文以专利文献的集外词翻译为切入点,以中英神经网络机器翻译为主要研究方向,重点研究并提出了一种改善集外词翻译问题的方法,从而提高神经网络机器翻译的效果。主要研究成果如下:(1)引入统计机器翻译中的对齐信息,以外部信息的形式加入语料库词典,当出现集外词时根据神经网络机器翻译中的注意力机制,对集外词进行翻译。(2)对语料中的技术术语进行标签化处理,以前后处理的方式翻译技术术语。(3)加入多模型融合机制,即同时训练多个翻译模型,在解码时根据多个翻译模型得到的结果调整注意力机制权重信息,挑选最优结果。本文将集外词处理作为研究重点,在中英专利语料上的实验结果表明,本文提出的方法能有效的处理集外词和专利术语,使翻译效果得到提升。