复杂声学环境下的麦克风阵列语音定位研究
【摘要】:
麦克风阵列可广泛应用于音/视频会议系统、语音增强、人机接口、机器人等领域。语音定位技术是麦克风阵列信号处理的主要内容之一。麦克风阵列定位算法分为基于时延估计的定位算法和基于角度估计的定位算法。基于角度估计的定位算法对源和传感器模型有较大依赖性,多用于窄带、平稳信号的定位估计,且由于其运算量较大,并不适合说话人定位的实际应用。基于时延估计的定位算法对源信号特性和传感器模型要求比较宽泛,且其计算量较小、适应性强,因此广泛应用于说话人语音定位系统。传统的时延估计定位算法多假设于理想声学环境,而麦克风阵列应用的音/视频会议等场合常面临复杂的声学环境,这导致了传统的定位算法无法适用。与传统的声源定位相比,麦克风阵列说话人语音定位系统常面临复杂的声学环境,如房间混响干扰,有色噪声干扰,空间噪声干扰,非高斯噪声干扰以及麦克风位置误差等。
本文围绕这些问题,分别针对语音定位系统中的时延估计、声源定位和语音检测三部分功能,提出了一些新的算法,实现了复杂声学环境下的说话人定位。本文的创新工作如下:
(1)针对传统信道盲辨识方法抗噪性能较差的问题,提出了抗噪信道盲辨识框架,并给出了基于双麦克风的信道盲辨识方法-延迟特征值分解算法。该算法利用延迟相关矩阵来盲辨识算法,对有色噪声有较好的抑制作用。
(2)在抗噪信道盲辨识的框架下,针对混响和有色噪声下的时延估计问题,提出了自适应延迟特征值分解算法。该算法通过对房间冲激响应进行辨识来抑制混响,同时采用延迟相关矩阵来抑制有色噪声。实验结果表明,该算法在混响和有色噪声环境下可以给出稳健的时延估计。
(3)针对混响和空间噪声,提出了基于三麦克风的自适应延迟特征值分解时延估计算法。该算法通过对双声源三麦克风系统进行盲辨识来估计时延,并利用延迟相关矩阵来实现对空间噪声的抑制。
(4)同时考虑时延估计误差和麦克风阵列位置误差,提出了线性校正总体最小二乘定位算法。该算法采用总体最小二乘误差准则,可以有效地抑制阵列位置误差,并且由于加入了位置参数的二次约束,改进了算法的稳定性。
(5)针对多媒体会议房间中的鼓掌声、咳嗽声和敲门声等非高斯噪声的干扰,提出一种基于线性预测残差域高阶统计量的语音VAD检测方法。该方法利用线性预测残差域的归一化峰度作为判别准则来表征语音和非语音信号在谐波数量上的差异,可以有效地区分语音和非高斯噪声。
计算机仿真实验验证了本文提出的时延估计算法、定位算法和语音VAD检测算法的有效性。