基于支持相量机的稳键说话人识别
【摘要】:
说话人识别属于生物识别的一种,是指从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行辨认或确认的目的。它被认为是最自然的生物特征识别身份鉴定方式。由于语音是个人所固有的特征,人的语音可以非常自然的产生,训练和识别时并不需要特别的输入设备,诸如个人电脑普遍配置的话筒和到处都有的电话都可以作为输入设备,因此说话人识别系统的价格也较低,上述原因促使语音成为人们愿意接受的一种生物特征。尽管目前说话人识别技术已经取得了相当大的进展,但是将说话人识别技术大规模的应用到实际还有很多问题有待于解决,是当前生物特征识别领域研究的热点。
本文研究了基于支持向量机的说话人识别,通过理论分析和实验结果得知,基于SVM的说话人识别虽然可以取得比较好的效果,但当数据规模增大时,识别效率下降比较快,缺少对大规模数据的处理能力。为了弥补基于SVM的说话人识别的这个缺点,本文对基于GMM的说话人识别进行了研究,提出基于SVM+GMM的说话人识别方法,将两种识别方法的优点进行了结合。实验结果表明,该方法可以取得比其它两种方法都好的识别性能,并且它既有处理大规模数据的能力又可以在训练样本不足的情况下得到较高的识别率。
本文在研究了双分界面的支持向量机这种新的分类器模型后,提出了将TWSVM模型应用于说话人识别的方法,并采用一种新的结合方式将其与GMM模型结合起来,从而得到基于TWSVM+GMM的说话人识别方法体系。该方法是使用GMM模型进行特征提取,将得到的特征参数作为输入进行TWSVM模型的训练。实验结果表明,基于TWSVM+GMM的说话人识别方法在识别效率上已经超过了传统的SVM方法,并且比它具有更好的大规模数据处理能力。在训练样本充足的情况下也已经接近于基于GMM模型的方法。
根据本文提出的说话人识别算法,设计实现了基于支持向量机的说话人识别系统,本文对该系统的设计框架、系统实现、系统性能等作了详细的介绍。