基于波束形成和时频掩蔽的多通道语音增强技术研究
【摘要】:语音增强是前端声学信号处理的一个重要内容,其是语音质量提升的一种重要手段也是后续语音任务的前提与基础。然而,实际生活场景中存在各种各样复杂多变的干扰严重影响传播的语音的质量,因此如何提升带噪语音的质量是一项具有很大挑战性的工作。相比于传统的单通道语音增强技术,多通道语音增强技术能够额外的利用语音的空域信息,在一定程度上有利于提升复杂环境下的带噪语音的质量。本文对基于波束形成和时频掩蔽的多通道语音增强技术进行了相应的研究,研究的内容主要有以下几个方面:(1)研究了传统的麦克风阵列信号处理技术,在此基础上分析了经典的用于多通道语音增强的波束形成算法以及常用的后置滤波算法的优缺点。最后分析了现有的语音质量评价中的主观评价与客观评价,并且选取客观评价指标中的PESQ和STOI两个指标为后续实验效果分析的客观指标。(2)研究了时频掩蔽技术和循环神经单元及其主要变体,提出了结合时频掩蔽和循环神经网络的多通道语音增强算法。时频掩蔽技术为我们的监督学习提供了良好的监督目标而循环神经单元相比于传统的神经元能够更好的利用历史信息,更重要的是使用循环神经网络来搭建后置滤波算法能够进一步的提升延时求和波束形成后的语音的质量,所提的算法在合成的数据集上与实录的数据集上均验证了其有效性与优越性。(3)研究了卷积神经网络的基本组成结构和多目标学习理论基础,提出了结合卷积神经网络和多目标学习的多通道语音增强算法。卷积神经网络具有很强的自动学习所需特征的能力,而多目标学习有利于进一步提升模型的泛化能力,更重要的是使用卷积神经网络可以将固定波束形成与后置滤波算法融合成一个整体。实验结果证明所提的结合卷积神经网络和多目标学习的多通道语音增强算法不仅在仿真的数据集上有效,在实际场景中录制的多通道语音下同样具有效果。