基于统计模型的语音增强算法研究
【摘要】:环境噪声是语音处理设备如语音识别系统、说话者辨识系统中广泛存在的一个负面因素。这些系统在没有噪声的环境中具有非常好的语音处理效果,但在实际的噪声环境中,语音处理性能会明显下降很多。剔除语音中的背景噪声是语音信号处理中具有挑战性的问题。由于自然环境中,噪声具有多样性以及语音信号本身的复杂性,语音增强算法也因环境的不同而不同。
语音增强算法的分类方法有很多,依输入信道数量分类,可有单通道语音增强算法、双通道语音增强算法和多通道语音增强算法;依信号处理的域分类,有时域语音增强算法和频域语音增强算法;根据算法的类型又可分为非自适应语音增强算法和自适应语音增强算法。单通道语音增强算法主要应用在如移动通信、助听器等场合。通常,单通道系统利用了语音信号和噪声信号的不同统计特性,在噪声为非平稳时性能不好,同多输入系统相比,它占用资源较少。但是,如何得到性能良好的单通道语音增强算法是这一领域所研究的最困难的问题之一。目前,出现了许多针对不同问题的单通道语音增强算法。
针对语音增强算法由固定长度分帧所导致的语音过渡阶段和清音部分增强效果差的问题,本论文提出了基于清浊音分割算法的语音增强算法。该算法首先利用清浊音分割算法将语音信号中的清浊音分离出来,然后对分离后的清浊音谱幅度分布进行估计,找到更接近于清浊音谱幅度的分布函数,根据清浊音的不同使用不同的谱分布函数进行语音增强。计算机仿真实验验证了这种基于清浊音分离处理算法可有效地提高信噪比,改善语音过渡阶段的增强效果以及清音部分的增强效果。
基于统计模型的语音增强算法是从带噪语音信号中估计出纯净语音信号。这类算法通常要求准确知道纯净语音信号和噪声信号的联合统计量,而且要求具有易理解的失真度量方法。若语音信号和噪声信号是统计独立的,则需要准确的知道纯净语音信号和噪声信号的概率分布。但实际情况是我们既不知道语音信号和噪声信号的统计量也没有最好意义上的失真度量方法。所以,从理论上讲应首先分别训练得出语音信号和噪声信号的统计量,也就是需要一种最优化算法来获得信号的统计模型,然后将该统计模型结合目前能使用的失真度量以得到语音增强算法。
语音增强算法中通常假设语音信号统计独立,短时谱幅度服从瑞利分布。许多语音增强算法致力于找到更为准确的语音信号统计模型来改善语音增强算法。一些统计模型,如超高斯模型如伽玛分布、拉普拉斯分布以及广义超高斯分布已被证明要优于高斯模型。尽管对基于这些模型的语音增强算法研究取得了一些进展,但单一的分布函数并不能够很好模拟语音信号真实的分布柱状图。针对这一问题,本文使用了一种超高斯混合模型为语音信号谱幅度建立模型,采用EM算法对超高斯混合模型中的参数进行估计。这种混合模型能够很好逼近语音信号短时谱幅度柱状图。将该混合模型用于语音增强算法中,得出语音信号短时谱幅度的最小均方误差估计,通过分析该语音增强算法的增益曲线可知超高斯混合模型能够改善语音信号能量较小处的语音增强性能。
很显然,根据语音信号自身的产生原理以及非平稳特性,单一的某一分布并不适用于所有的语音信号。因此改善语音增强算法远非用一种模型来代替另一种模型这样简单,需要更为灵活的模型或模型估计算法以适应语音信号自身的特点。隐马尔科夫模型是一种很好的模型估计算法,目前广泛用于语音识别问题中。尽管偶而会应用于语音增强问题中,但到目前为止,它并没有得到很好的发展,或者只用于噪声信号的模型估计时,这里假设不同性质的语音信号处于隐马尔科夫模型的不同状态,训练纯净语音信号得到的参数模型应能适应语音信号的特点。本文在参数估计过程中对语音每一帧的联合概率做了一定程度的约束处理,避免在训练语音谱幅度的过程中出现无穷大或零值,从而得到了相对合理的语音谱幅度分布估计。论文提出了建立在该模型基础上的语音增强算法。由于用基于信号统计模型的语音增强算法处理语音信号无法判断每一帧带有噪声的信号确切属于隐马尔科夫模型的哪一种状态,在论文中引入自适应方法来选择一种最适合该帧带噪语音信号的谱幅度分布模型。该算法提高了语音信号的信噪比,在一定程度上克服了只使用单一语音谱幅度分布函数带来的问题。
|
|
|
|
1 |
马晓红,殷福亮,陆晓燕,王晓宁;基于小波变换的传声器阵列语音增强方法[J];大连理工大学学报;2003年04期 |
2 |
徐爽,韩芳芳,郑德忠;基于阈值的小波域语音增强新算法[J];传感技术学报;2004年01期 |
3 |
邹采荣;陈国明;赵力;;基于泄漏约束的DF-GSC语音增强(英文)[J];Journal of Southeast University(English Edition);2007年04期 |
4 |
彭煊,刘金福,王炳锡;基于独立分量分析的语音增强[J];信号处理;2002年05期 |
5 |
沈亚强;基于多分辨率子波变换的自适应滤波语音增强方法[J];浙江工商职业技术学院学报;2003年04期 |
6 |
钱永玲;面向NGN的三重播放——7302 ISAM语音增强型接入平台[J];通讯世界;2005年11期 |
7 |
李楠;;一种小波变换与维纳滤波结合的语音抗噪研究[J];电声技术;2007年05期 |
8 |
张丽艳;殷福亮;;一种改进的奇异值分解语音增强方法[J];电子与信息学报;2008年02期 |
9 |
徐岩,杨静,王维汉;基于谱相减改进算法的语音增强研究[J];铁道学报;2004年01期 |
10 |
石鸿凌,姜琳峰,孙洪;基于TVAR模型的语音增强技术[J];武汉大学学报(工学版);2004年02期 |
11 |
董婧,赵晓晖;基于自适应共轭梯度参数估计的顽健卡尔曼滤波语音增强算法[J];通信学报;2004年08期 |
12 |
赵光,贾林飞,王冬霞,王琼;基于神经网络的麦克风阵列语音增强方法[J];辽宁工学院学报;2005年03期 |
13 |
王惠琴;何继爱;张秋余;;小波变换在语音增强中的应用[J];甘肃科学学报;2005年04期 |
14 |
王月;屈百达;徐保国;;一种基于仿生小波变换的语音增强方法[J];计算机工程与应用;2008年11期 |
15 |
刘晓晖,周祎 ,郑明,吴道悌;语音增强系统中宽带噪声的滤除[J];西安交通大学学报;1998年12期 |
16 |
孙新德;一种改进的语音增强方法及实现[J];郑州航空工业管理学院学报(社会科学版);2005年04期 |
17 |
曹晓琳,吴平,张素莉,丁铁夫;一种基于自适应滤波的语音增强算法的DSP实现[J];电子器件;2005年03期 |
18 |
王侠,顾明亮;一种基于小波变换的语音增强新方法[J];徐州师范大学学报(自然科学版);2005年03期 |
19 |
陈立伟,赵春晖,杨洪利;一种基于模糊系统的语音增强方法[J];应用科技;2005年10期 |
20 |
王永琦
,邓琛
,李世超
,杨洋;噪声环境中基于GMM汉语说话人识别[J];微计算机信息;2005年22期 |
|