基于深度神经网络的语音增强目标函数设计研究
【摘要】:语音在传输过程中总是受到背景噪声干扰,导致语音被严重污染,极大地降低了语音的质量和可懂度,进而影响后续语音应用。语音增强是指从混合带噪语音中提取出纯净语音,抑制、降低噪声干扰的技术。它常作为前端语音信号处理技术,服务于后端语音应用。面向不同后端语音应用,语音增强的目的也不相同。比如对于语音通信应用,语音增强的目的是提高语音的人耳听感。而对于语音识别应用,语音增强的目的是将带噪语音转换为对环境失真不敏感同时包含足量判别信息的特征,作为输入送入语音识别系统,获得更高的识别准确率。随着深度学习在语音识别中获得成功,深度神经网络(Deep Neural Network,DNN)在语音增强中的应用也成为当下的研究热点。基于DNN的语音增强通常利用回归DNN学习带噪语音到干净语音的映射,并取得了显著优于传统单声道语音增强算法的性能。从机器学习的角度来说,基于DNN的语音增强的难点在于复杂的非凸目标函数的优化。最小均方误差(Minimum Mean Squared Error,MMSE)是DNN语音增强模型常用的一种目标函数,然而其容易造成严重的过平滑问题,且跟后续的语音应用的目标之间存在差异,约束增强算法的性能上限。目标函数对网络训练至关重要,在同等训练条件下,更优的目标函数可以训得更好的模型。另外,当前智能语音被成功应用到各种智能硬件产品中,实现人机交互。定制化和个性化是这些智能产品发展的新方向。本文主要研究面向不同后端语音应用或者特定声学场景定制设计DNN语音增强模型的目标函数。首先,本文对MMSE进行了改进。从统计的角度来说,MMSE可以视作独立等方差高斯误差分布假设下的最大似然解。然而对DNN语音增强模型输出误差的统计分析发现其分布呈尖峰肥尾状,且各维上的方差不同。所以本文提出利用广义高斯分布(Generalized Gaussian Distributions,GGD)重新对预测误差进行建模,推导出对数似然函数作为新的目标函数,并引入最大似然估计法对网络参数和GGD参数同时优化。实验证明了基于GGD的最大似然目标函数显著好于传统的MMSE训练准则。此外,对DNN语音增强模型输出误差的进一步统计分析发现其分布并不是严格对称的,非对称的拉普拉斯分布(Asymmetric Laplace Distribution,ALD)被用来对误差重新建模,在概率框架下推导出对数似然函数作为新的目标函数。并从实验和理论两方面对引入的非对称参数进行分析,发现其可以调控语音增强网络的优化方向,这为后端语音应用定制前端增强算法提供了可行性方案。然后,面向语音识别应用,本文首先提出了一个利用时间同步的干净和带噪语音数据对度量语音增强算法识别性能的客观评价指标。它定义为DNN-HMM声学模型输出的干净和带噪语音的状态后验概率分布的交叉熵。实验证明了它与语音识别性能的强相关性。然后考虑到该指标是可导的,所以很容易将其直接用作DNN语音增强模型的目标函数,指导增强网络朝着提高识别准确率的方向优化。最终提高了后端识别系统的噪声鲁棒性。最后,面向低资源下特定说话人的语音增强,本文在最大似然目标函数的基础上提出了基于KL散度正则化的目标函数,即利用KL散度统计说话人无关模型和特定说话人模型输出的条件概率分布间的距离,然后作为正则化项加到主目标函数中,约束特定说话人模型不要偏离说话人无关模型太远。该目标函数实现了将说话人无关模型很好地适应到特定说话人模型上,减轻了由于特定说话人干净语料过少导致的过拟合问题。此外,采用迁移学习策略进一步减少过拟合。最终利用仅不到1分钟的特定说话人干净语料就能实现比大数据集的多条件训练语料训得的说话人无关模型更好的语音质量和可懂度。