基于短时谱估计的语音增强研究
【摘要】:
语音是人类信息交流的重要载体,语音质量的好坏不仅会影响人耳的听觉效果,还会对各种语音信号处理系统的输出造成影响。而在实际环境中,语音信号又难免不受到各种各样干扰噪声所污染,使语音质量明显下降。语音增强技术就是以去除各类干扰噪声为出发点,目的是尽可能的还原出原始纯净语音信号。论文研究了短时谱估计语音增强算法中的谱减法和最小均方误差估计算法,并对这两种算法作了进一步的改进,最后结合这两项研究提出几何谱减语音增强算法,主要的工作如下:
(1)针对传统谱减法语音增强后带有明显“音乐噪声”的缺陷,提出一种基于多频带分解的谱减法。将带噪语音信号和估计的噪声信号在不同帧、不同频带上分解为几个互不交叠的频带,最后利用每个频带内的带噪语音信号与噪声的信噪比,通过自适应算法求得该频带内的过减因子,以提高算法的自适应能力,更有效的降低增强后语音中的残留“音乐噪声”,提高了语音的可懂度。
(2)在最小均方误差估计(MMSE)算法的基础上,结合最大似然估计在对数谱下进行研究,提出一种对数谱MMSE估计的改进算法,做法是重新对每一帧信号进行最大似然估计,并对估计式加入可动态调整的参数α、β,使算法有了更大的灵活性,更好的突出语音频谱,相对于MMSE算法,新算法具有更强的去噪能力,特别是对于白噪声。同时残留的“音乐噪音”也有所下降。
(3)针对传统谱减法的理想假设(语音信号和噪声相互独立),从而忽略带噪语音信号短时功率谱中的互谱值,以至带来无法根除的“音乐噪声”。为了克服这些问题,采用几何数学原理对带噪语音信号进行建模,得出类似于最小均方误差(MMSE)先验信噪比估计的语音增强新算法—几何谱减法,新算法增强后的语音已无“音乐噪声”残留,语音畸变度也最小。