序列到序列的语音生成声学模型研究
【摘要】:序列到序列模型是一类深度学习统计模型,可以用于对给定输入序列下输出序列的条件概率进行建模。近年来,序列到序列模型在众多领域的应用表现出众,包括语音识别、自然语言处理等任务。随着谷歌研究人员于2017年提出Tacotron模型以后,序列到序列声学模型被广泛应用于语音生成任务中,取得了令人瞩目的效果。序列到序列模型相比于传统模型的主要优势在于模型的框架十分灵活,理论上可以对任意性质的序列对之间的关系进行建模。而且序列到序列模型通过自回归的方式对输出序列的概率进行建模,没有隐马尔可夫模型(hidden Markov model,HMM)等序列模型中对于时间条件独立性的不合理假设。序列到序列模型并没有规定模型的每个部分的细节如何构建。任务可以根据输入数据的性质,使用不同神经网络结构构建序列到序列模型中的不同模块,比如长短时记忆网络、卷积神经网络等。语音生成任务赋予机器灵活地生成语音的能力,是人机交互的一个重要环节,具有广泛的应用场景和重要的研究意义。本文关注的语音生成任务主要包含了语音合成、话者转换和发音特征到语音生成任务。不同的任务虽然输入数据的性质有所不同,但是共享相同的任务目标,即生成自然的语音。本文研究的语音生成任务都可以使用序列到序列模型来解决。近年来,序列到序列模型应用于语音生成虽然有了重大进展,但是仍然存在一些问题需要解决。例如序列到序列模型中的注意力机制存在不稳定问题,会造成生成语音发音错误;序列到序列模型尚未成功应用于平行和非平行话者转换任务中;发音特征到语音生成任务面临数据稀疏的问题,等等。本文针对这些问题,围绕序列到序列的语音生成声学模型开展了相关研究,提升了模型在相应语音生成任务上的性能。本文的主要研究内容包括:第一,本文对序列到序列语音合成中的注意力机制进行了研究。序列到序列模型用于语音合成存在稳定性方面问题,经常出现发音错误、重复发音等现象。受到语音合成任务中文本和语音单调性对齐的特点的启发,本文提出一种序列到序列模型中的前向注意力方法。实验证明前向注意力方法可以有效的提升序列到序列语音合成的稳定性。第二,本文对基于序列到序列模型话者转换方法进行了研究。对于平行话者转换任务,本文提出了序列到序列话者转换模型,该模型可以对输入语音的语速等韵律特征进行转换,有效提升了转换语音的自然度和相似度。对非平行话者转换的问题,本文提出了基于特征解耦的序列到序列模型。提出模型利用对抗学习和文本联合空间学习的策略,可以有效分离语音中的说话人信息和语言学信息。该方法用于非平行话者转换,在自然度和相似度上取得了接近于平行序列到序列话者转换的效果。此外本文还提出了基于对抗学习的识别-合成话者转换方法和直接串联自动语音识别-语音合成系统的话者转换方法。第三,本文对发音特征到语音生成任务进行了研究。该研究使用了超声波舌部图像和口唇图像作为发音特征,任务的目标是恢复自然的语音。针对发音特征数据稀疏的问题,本文提出了一种基于语音合成迁移学习的方法,可以有效的提升恢复语音的可懂度和自然度。