基于MFCC和GMM的说话人识别系统研究
【摘要】:说话人识别作为生物认证技术的一种,是根据应用语音波形中反映说话人生理和行为特征语音参数,自动鉴别说话人身份的一种技术。与其它生物识别技术相比,说话人识别具有更为简便,经济及可扩展性良好等众多优势,可广泛应用于电话银行,数据库访问,计算机远程登录,安全验证,控制等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中。在众多的说话人识别技术中,本文主要研究了基于Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficients,简称MFCC)和高斯混合模型(Gaussian Mixture Model,简称为GMM)的说话人识别系统。
人的声道响应是反映说话人个性特征的重要的物理量。而语音信号中声道响应是和声门激励信息卷积在一起的。为了从语音信号中得到声道响应就必须对语音信号实现解卷积。本文介绍了对语音信号实现解卷积求取倒谱系数的两种方法:线性预测分析和同态分析处理。通过对语音信号进行解卷,从而获得与声道响应有关的倒谱系数,组成特征向量。
现实生活中人耳是一个比较好的说话人识别系统,而人耳对声音频率的感知却不是线性的。本文通过对人耳听觉的生理和心理特性的分析介绍,提出了利用音调特性来进行倒谱特征提取的方案,即用MEL频率对短时功率谱做频率弯折处理。在这种新的倒谱提取过程中,用符合临界带分布的等效滤波器组来模拟人耳听觉的非线性特性,从而得到了Mel频率倒谱系数(MFCC)。文中详细介绍了提取MFCC倒谱系数的理论基础和实现方案,并与传统的线性预测技术作了比较,实验结果表明这种改进后的倒谱特征提取方法比较有效。
说话人识别中有许多先进有效的识别技术,其中高斯混合模型(GMM)由于性能较好、复杂度小、方法简单,是目前最好的说话人识别算法之一。本文介绍了GMM模型的概念、模型参数的估计以及GMM的识别算法,并通过实验研究分析了GMM模型的阶数对识别性能的影响。
另外,本文还介绍了倒谱系数的动态特征,从MFCC对时间的一阶导数得到了反映倒谱动态特性的ΔMFCC。通过实验验证了动态特征(ΔMFCC)中的确含有有用的说话人个性信息。在原来MFCC倒谱系数的基础上加入ΔMFCC构成更高维的特征向量,并通过实验验证了这种组合特征对提高系统识别性能的有效性。