收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的声纹识别算法研究

卞腾跃  
【摘要】:随着各种智能终端设备的应用与普及,生物特征识别技术以其便捷性逐渐在各类身份验证场景下扮演越来越重要的角色。声纹识别属于生物特征识别的一种,基于人的语音信号进行身份识别,被广泛应用于刑侦、金融风控、语音终端的人机交互等各类场景。根据应用场景不同,可以分为说话人确认和说话人辨认两个任务。根据是否对语音的文本内容进行限定,声纹识别又分为文本相关型和文本无关型两个类别。本文主要针对难度较大的文本无关型声纹识别,并对说话人确认任务和说话人辨认任务分别进行了相关测试。本文提出了一种端到端的声纹识别算法,包括基于注意力机制的神经网络模型和基于度量学习的模型训练方式。本文所提出的网络模型结合了残差卷积神经网络和注意力机制,不仅将注意力机制应用到了高层特征提取,同时提出了一种基于注意力机制的时域池化方法,以学习对于不同语音片段的特征进行自适应的权重分配。基于三元损失函数,本文提出了一种新颖的在线难样本挖掘方式以统一同类样本对的约束条件,并在此基础上针对三元损失难以训练的问题提出了一种稳定训练的方案。基于Voxceleb1数据集进行模型训练,该方案在说话人确认任务上达到了5.3%的等错误率,优于目前最流行的i-vector模型和x-vector模型。此外,本方案是一种端到端的实现,不需要多余的后端作为打分模型,而i-vector模型和x-vector模型都依赖于单独训练的PLDA模型进行打分。在基于Voxceleb2数据集进行训练的情况下,该方案进一步将Voxceleb1验证集上的等错误率降低到了4.05%,优于原文中采用对比损失训练的Res Net-34模型以及Res Net-50模型,且本文提出的网络模型的复杂度远低于Res Net-34。针对一般的多分类任务,本文提出了一种度量学习损失函数与softmax交叉熵联合训练的模型训练方法,即先采用本文阐明的CRL损失函数训练网络的瓶颈特征,然后通过softmax交叉熵训练最终的全连接分类层。通过采用切断瓶颈特征与分类层之间的梯度传播的方式可以将这两个步骤同时进行,在Voxceleb1数据集上,该方法将Top-1准确率进一步提升了3.6%。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 张怡颖,朱小燕,张钹;一种新的说话人确认方法[J];软件学报;1999年04期
2 陈震华;景新幸;杨海燕;刘卓;;基于TCP/IP的说话人确认系统[J];电子工程师;2006年08期
3 刘晓燕;傅鹂;周元;;基于群模型改进的说话人确认系统[J];计算机应用与软件;2007年11期
4 陈伟;李辉;张琨磊;;基于扰动属性投影的说话人确认系统[J];计算机工程;2012年02期
5 李轶,范影乐;基于倒谱与复杂性的说话人确认系统[J];杭州电子工业学院学报;2004年06期
6 酆勇;熊庆宇;石为人;曹俊华;;深度非线性度量学习在说话人确认中的应用[J];声学学报;2018年01期
7 古斌;郭武;;说话人确认中基于无监督聚类的得分规整[J];数据采集与处理;2019年05期
8 于哲舟,周春光,李佳慧,杨佳东;一种简单有效的说话人身份认证方法[J];吉林大学学报(信息科学版);2003年S1期
9 荣蓉;;声纹识别在校园网身份认证中的作用[J];枣庄学院学报;2008年05期
10 陈雁翔,戴蓓倩,周曦,李辉;基于对话语音的与文本无关的说话人确认系统的研究[J];中文信息学报;2004年02期
11 张二华;王明合;唐振民;;加性噪声条件下鲁棒说话人确认[J];电子学报;2019年06期
12 李灿伟,杨震;基于HMM的说话人确认系统的研究[J];南京邮电学院学报(自然科学版);2001年02期
13 霍春宝;张彩娟;赵红敏;;基于GMM-UBM的说话人确认系统的研究[J];辽宁工业大学学报(自然科学版);2012年02期
14 郑方;程星亮;;声纹识别:走出实验室,迈向产业化[J];中国信息安全;2019年02期
15 张彩红;洪青阳;陈燕;;基于GMM-UBM的说话人确认系统的研究[J];心智与计算;2007年04期
16 李爱平;党幼云;;VQ声纹识别算法和实验[J];西安工程科技学院学报;2007年06期
17 杨澄宇,赵文,杨鉴;基于高斯混合模型的说话人确认系统[J];计算机应用;2001年04期
中国重要会议论文全文数据库 前10条
1 杨艺敏;景新幸;杨海燕;;PSO-SVM在说话人确认系统中的研究[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
2 展领;景新幸;;矢量量化和VQ-UBM在说话人确认中的应用[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
3 许云飞;黄厚军;金怡珠;李桂莲;周若华;;基于PLDA的“一对多”下的说话人确认方法研究[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
4 李琳;郭慧阳;尚凤仪;洪青阳;;基于GMM-SVM的文本相关说话人确认系统[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年
5 洪青阳;陈毅东;;一种用于说话人确认的区别性训练方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 杨莹春;雷震春;吴朝晖;;基于情感补偿的活体声纹识别框架研究[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
7 谭良杰;刘亚丽;;噪声对跨语种说话人音色感知的影响[A];2019年全国声学大会论文集[C];2019年
8 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
9 马勇;鲍长春;夏丙寅;;基于辨别性深度信念网络的说话人分割[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
10 王海燕;杨鸿武;甘振业;裴东;;基于说话人自适应训练的汉藏双语语音合成[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 酆勇;基于深度学习的说话人识别建模研究[D];重庆大学;2016年
2 王军;复杂环境下说话人确认鲁棒性研究[D];清华大学;2015年
3 李蓝天;说话人识别中的特征学习方法研究[D];清华大学;2018年
4 刘明辉;基于GMM和SVM的文本无关的说话人确认方法研究[D];中国科学技术大学;2007年
5 解奉龙;跨越说话人及语言差异的语音生成[D];哈尔滨工业大学;2019年
6 田野;麦克风网络中基于分布式卡尔曼滤波的说话人跟踪方法研究[D];大连理工大学;2018年
7 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
8 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
9 吕声;说话人转换方法的研究[D];华南理工大学;2004年
10 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年
中国硕士学位论文全文数据库 前10条
1 卞腾跃;基于深度学习的声纹识别算法研究[D];浙江大学;2020年
2 陈晓阳;远程语音通话实时说话人确认系统研究与实现[D];厦门大学;2009年
3 郭伟;基于信道补偿方法的说话人确认研究[D];中国科学技术大学;2009年
4 赵飞;基于深度神经网络的鲁棒性说话人确认方法研究[D];内蒙古大学;2019年
5 张艳;基于发音动作参数的说话人确认技术研究[D];上海师范大学;2018年
6 张彩红;嵌入式声纹识别系统的研究与实现[D];厦门大学;2008年
7 李湾湾;说话人声纹识别的算法研究[D];浙江大学;2017年
8 赵启明;一种新的说话人确认方法研究[D];浙江大学;2015年
9 骆启帆;基于声门信息的说话人确认方法研究[D];杭州电子科技大学;2014年
10 纪现清;文本无关说话人确认及其应用研究[D];北京交通大学;2008年
中国重要报纸全文数据库 前10条
1 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
2 记者 蒋荣耀 江南鸾 李旖露;“黑科技”野心:能听会说可办事[N];深圳商报;2018年
3 吴玺宏;声纹识别应用前景[N];计算机世界;2001年
4 本报记者 周腾;进阶声纹识别性能[N];通信产业报;2018年
5 刘振;新技术应用须可控可靠[N];安徽日报;2019年
6 本报记者 王梦然;声纹识别提高应用安全性[N];新华日报;2019年
7 丰收;保护用户权益是新识别技术首选[N];中华工商时报;2019年
8 高松;“声纹识别金标”助力移动金融发展[N];中国城乡金融报;2018年
9 赵佳佳;声纹识别:客户身份判断的新工具[N];中国城乡金融报;2017年
10 本报记者 郭涛;声纹识别就是这样简单[N];中国计算机报;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978