基于深度学习的声纹识别算法研究
【摘要】:随着各种智能终端设备的应用与普及,生物特征识别技术以其便捷性逐渐在各类身份验证场景下扮演越来越重要的角色。声纹识别属于生物特征识别的一种,基于人的语音信号进行身份识别,被广泛应用于刑侦、金融风控、语音终端的人机交互等各类场景。根据应用场景不同,可以分为说话人确认和说话人辨认两个任务。根据是否对语音的文本内容进行限定,声纹识别又分为文本相关型和文本无关型两个类别。本文主要针对难度较大的文本无关型声纹识别,并对说话人确认任务和说话人辨认任务分别进行了相关测试。本文提出了一种端到端的声纹识别算法,包括基于注意力机制的神经网络模型和基于度量学习的模型训练方式。本文所提出的网络模型结合了残差卷积神经网络和注意力机制,不仅将注意力机制应用到了高层特征提取,同时提出了一种基于注意力机制的时域池化方法,以学习对于不同语音片段的特征进行自适应的权重分配。基于三元损失函数,本文提出了一种新颖的在线难样本挖掘方式以统一同类样本对的约束条件,并在此基础上针对三元损失难以训练的问题提出了一种稳定训练的方案。基于Voxceleb1数据集进行模型训练,该方案在说话人确认任务上达到了5.3%的等错误率,优于目前最流行的i-vector模型和x-vector模型。此外,本方案是一种端到端的实现,不需要多余的后端作为打分模型,而i-vector模型和x-vector模型都依赖于单独训练的PLDA模型进行打分。在基于Voxceleb2数据集进行训练的情况下,该方案进一步将Voxceleb1验证集上的等错误率降低到了4.05%,优于原文中采用对比损失训练的Res Net-34模型以及Res Net-50模型,且本文提出的网络模型的复杂度远低于Res Net-34。针对一般的多分类任务,本文提出了一种度量学习损失函数与softmax交叉熵联合训练的模型训练方法,即先采用本文阐明的CRL损失函数训练网络的瓶颈特征,然后通过softmax交叉熵训练最终的全连接分类层。通过采用切断瓶颈特征与分类层之间的梯度传播的方式可以将这两个步骤同时进行,在Voxceleb1数据集上,该方法将Top-1准确率进一步提升了3.6%。
|
|
|
|
1 |
张怡颖,朱小燕,张钹;一种新的说话人确认方法[J];软件学报;1999年04期 |
2 |
陈震华;景新幸;杨海燕;刘卓;;基于TCP/IP的说话人确认系统[J];电子工程师;2006年08期 |
3 |
刘晓燕;傅鹂;周元;;基于群模型改进的说话人确认系统[J];计算机应用与软件;2007年11期 |
4 |
陈伟;李辉;张琨磊;;基于扰动属性投影的说话人确认系统[J];计算机工程;2012年02期 |
5 |
李轶,范影乐;基于倒谱与复杂性的说话人确认系统[J];杭州电子工业学院学报;2004年06期 |
6 |
酆勇;熊庆宇;石为人;曹俊华;;深度非线性度量学习在说话人确认中的应用[J];声学学报;2018年01期 |
7 |
古斌;郭武;;说话人确认中基于无监督聚类的得分规整[J];数据采集与处理;2019年05期 |
8 |
于哲舟,周春光,李佳慧,杨佳东;一种简单有效的说话人身份认证方法[J];吉林大学学报(信息科学版);2003年S1期 |
9 |
荣蓉;;声纹识别在校园网身份认证中的作用[J];枣庄学院学报;2008年05期 |
10 |
陈雁翔,戴蓓倩,周曦,李辉;基于对话语音的与文本无关的说话人确认系统的研究[J];中文信息学报;2004年02期 |
11 |
张二华;王明合;唐振民;;加性噪声条件下鲁棒说话人确认[J];电子学报;2019年06期 |
12 |
李灿伟,杨震;基于HMM的说话人确认系统的研究[J];南京邮电学院学报(自然科学版);2001年02期 |
13 |
霍春宝;张彩娟;赵红敏;;基于GMM-UBM的说话人确认系统的研究[J];辽宁工业大学学报(自然科学版);2012年02期 |
14 |
郑方;程星亮;;声纹识别:走出实验室,迈向产业化[J];中国信息安全;2019年02期 |
15 |
张彩红;洪青阳;陈燕;;基于GMM-UBM的说话人确认系统的研究[J];心智与计算;2007年04期 |
16 |
李爱平;党幼云;;VQ声纹识别算法和实验[J];西安工程科技学院学报;2007年06期 |
17 |
杨澄宇,赵文,杨鉴;基于高斯混合模型的说话人确认系统[J];计算机应用;2001年04期 |
|