基于攻击方法和重放配置的得分融合在说话人确认反欺骗中的研究
【摘要】:自动说话人确认技术(Automatic speaker verification,ASV)是生物识别技术的一种,通过说话人的语音信号自动确定该说话人的身份。在实际身份验证场景中,欺骗者通过语音转换、语音合成和录音重放就能得到与真实语音非常相似的欺骗语音。目前的ASV系统很难检测到欺骗语音与真实语音之间的细微差别,欺骗语音可以轻松地通过ASV系统,这对ASV系统的安全性造成了严重的威胁。因此,近年来说话人确认反欺骗技术得到了越来越多的关注。本文主要对基于高斯混合模型(Gaussian Mixture Model,GMM)、i-vector和轻量级卷积神经网络(Light Convolution Neural Network,LCNN)的说话人确认反欺骗模型在得分融合方面进行研究。为了提高说话人确认反欺骗模型的准确率和鲁棒性,本文提出在基于不同攻击方法和重放配置下分别对GMM模型、i-vector模型和LCNN模型进行不同模型的得分融合。本文实验均在ASVspoof挑战数据集上进行,相关工作总结如下:首先,本文对基于不同攻击方法和重放配置的GMM模型使用概率规整、线性回归和支持向量机(Support Vector Machine,SVM)进行得分融合。实验结果表明基于不同攻击方法和重放配置的GMM模型与SVM得分融合后与基线GMM模型相比,性能有显著的提高。其次,本文将概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)、SVM和余弦距离模型作为i-vector模型的后端,分别在i-vector模型与基于不同攻击方法和重放配置的i-vector模型上进行分析比较。实验结果表明基于SVM的模型性能优于PLDA和余弦距离。接着本文提出基于余弦距离打分的i-vector模型在不同攻击方法和重放配置中分别使用概率规整、线性回归和SVM进行得分融合。实验结果表明,基于余弦距离打分的i-vector模型和SVM得分融合后性能有了进一步的提升。最后,本文提出将LCNN模型全连接层的输出(Speaker Embedding)作为新的特征从而代替说话人确认反欺骗系统的i-vector,并使用PLDA、SVM和余弦距离进行打分。实验结果表明基于不同攻击方法和重放配置的LCNN模型使用SVM打分后性能表现得最好。接着本文提出基于余弦距离打分的Embedding在不同攻击方法和重放配置中分别采用概率规整、线性回归和SVM进行得分融合,实验结果表明使用SVM进行得分融合能进一步提高模型的性能。