收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的说话人无关单通道语音分离

王燕南  
【摘要】:近年来,随着计算机和互联网的高速发展,人们的生活方式发生了巨大改变,人与计算机之间的交流也日益增多。作为人类最重要、最常用和最方便的信息交换方式—语音输入,也得到了越来越多的科研人员的广泛关注。随着语音的人机交互技术在语音合成、自动语音识别(automatic speech recognition,ASR)等领域获得了巨大成功,也同时伴随着很多问题亟待解决,比如背景噪声、混响等对语音质量会产生极大的干扰,从而降低了语音的听感以及可懂度,对ASR的系统也会造成很大的影响,进而影响语音技术的实际应用。如何从被干扰的语音中获得较干净、清晰的语音信号,成为语音信号处理领域的一个重要课题。而在这其中,语音分离是极为重要的一个方面,也成为了语音技术发展的迫切需求,受到了研究人员的重点关注。进入21世纪以后,深度学习技术在信号处理域取得一系列重大突破,首先是多伦多大学的Hinton教授将深度模型引入在图像编解码和文本分类领域中,取得非常好的效果,再者是微软的邓力博士将深度神经网络(Deep Neural Network,DNN)应用在语音识别任务上,获得了非常大的性能提升,随后深度学习在语音,图像和视频领域都有非常广泛的应用,特别是工业界像谷歌,微软,百度这样的巨头,都将深度学习应用在他们的产品中,极大地促进了深度学习在学术中的研究。并且工业界的大规模成功应用,还显示了大数据在实现分类或识别任务上的巨大的潜力。而在语音分离任务上,能否用深度学习技术结合大数据在说话人独立的条件下实现比较好的性能表现是本论文的一个研究重点。在各种语音分离的方法中,除了会利用到空域信息的麦克风阵列技术以外,单通道语音分离是其中非常重要的一个领域,而其中没有混合说话人先验信息的说话人独立方法是其中的一个难点。近年来,基于计算听觉场景分析(compu-tational auditory scene analysis,CASA)的方法在单通道语音分离上得到了 成功的运用,但是这种方法会给目标信号造成很大的畸变。而利用回归的DNN能够更好的保留目标信号,本文的主要工作就是利用深度学习技术在单通道条件下进行说话人独立的语音分离。首先,我们在异性说话人组合的情况下进行了说话人独立深度神经网络的构建工作。能够进行多说话人语音分离的一个重要理论基础是混合的说话人的发音特性具有一定的区分性,比如不同的共振峰、频率分布、相同音素的不同发音时长等。而男性和女性说话人由于发音器官具有天然明显的不同特性,具有可分离的理论基础。通过利用混合语音的对数功率谱(log-power spectra,LPS)作为DNN模型的输入特征,而将说话人的干净语音特征作为输出,训练DNN学习混合语音和干净语音的非线性关系。然后,本文提出了一个基于说话人组合检测的说话人独立单通道语音模型系统。首先通过利用一种计算说话人语音相似度的方法,将说话人聚类成4个不同的子类,并证明不同之类之间具有明显的可分性。然后基于聚类结果,本文训练了一个有四输出端的说话人组合检测器,通过该检测器网络的输出信号的能量关系,可以判断当前混合语音的说话人组合类别。最后,根据检测器的识别结果,利用不同的DNN语音分离器将混合语音进行分离。最后,本文基于最大似然估计改进在回归DNN模型的训练过程中采用的最小均方误差准则(Minimum Mean Square Error,MMSE)目标函数。在最大似然估计的情况下,假设DNN的输出错误信号服从零均值的多维高斯分布,提出了一种依次更新DNN参数和其输出错误信号的分布函数的协方差矩阵的方法。进而可以发现MMSE准则在以下假设的条件下等效于最大似然估计:即DNN的输出错误信号分布函数的协方差矩阵为单位阵,即它的LPS域的各个分量具有相同的方差。但是实际情况下,这个假设并不严格成立从而限制了基于MMSE优化准则的泛化能力,因此通过将这个约束条件进行放松,在最大似然估计下得到了新的目标函数用于DNN的训练,并取得了明显的性能提升。在本文的最后,我们对所有工作进行了总结,并对未来的工作方向进行了展望。
【关键词】:单通道语音分离 深度学习 深度神经网络 说话人无关 最大似然估计
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TN912.3;TP18
【目录】:
  • 摘要5-7
  • ABSTRACT7-15
  • 第一章 绪论15-33
  • 1.1 语音分离16-17
  • 1.1.1 语音分离的定义16
  • 1.1.2 语音分离的研究意义16-17
  • 1.2 语音分离技术的发展历史和研究概况17-20
  • 1.3 经典单通道语音分离方法介绍20-31
  • 1.3.1 矢量量化模型方法20-22
  • 1.3.2 高斯混合模型方法22-25
  • 1.3.3 隐马尔科夫模型方法25-27
  • 1.3.4 独立成分分析方法27-28
  • 1.3.5 非负矩阵分解方法28-30
  • 1.3.6 计算听觉场景分析方法30-31
  • 1.4 本论文的研究内容和结构安排31-33
  • 1.4.1 本论文的研究内容31-32
  • 1.4.2 本论文的结构安排32-33
  • 第二章 基于深度神经网络的异性说话人组合的说话人无关单通道语音分离33-61
  • 2.1 基于深度学习的语音分离算法回顾33-42
  • 2.1.1 深度学习方法简介33-39
  • 2.1.2 说话人相关方法回顾39-40
  • 2.1.3 说话人无关方法回顾40-42
  • 2.2 异性说话人组合的基于深度神经网络的说话人无关单通道语音分离系统42-57
  • 2.2.1 说话人模型距离度量43-45
  • 2.2.2 基于深度神经网络的语音分离模型45-52
  • 2.2.3 实验配置和结果52-57
  • 2.3 本章小结57-61
  • 第三章 基于说话人组合检测的说话人无关单通道语音分离61-81
  • 3.1 引言61-62
  • 3.2 基于深度神经网络的说话人无关语音分离系统62-69
  • 3.2.1 说话人的聚类63-65
  • 3.2.2 说话人组合检测器65-67
  • 3.2.3 语音分离器67-69
  • 3.3 实验和结果分析69-77
  • 3.3.1 实验配置69-70
  • 3.3.2 实验结果分析70-77
  • 3.4 本章小结77-81
  • 第四章 基于深度神经网络的单通道语音分离的目标函数优化81-93
  • 4.1 引言81-82
  • 4.2 基于最大似然估计的深度神经网络训练82-84
  • 4.3 输出估计错误的统计分析84-85
  • 4.4 实验和结果85-89
  • 4.4.1 实验配置85
  • 4.4.2 实验结果和分析85-89
  • 4.5 本章小结89-93
  • 第五章 总结93-97
  • 5.1 本文的主要贡献与创新点93-94
  • 5.2 后续的研究工作94-97
  • 参考文献97-113
  • 个人简历及在读期间发表的学术论文113-115
  • 致谢115-116

【相似文献】
中国期刊全文数据库 前10条
1 李从清;孙立新;龙东;任晓光;;语音分离技术的研究现状与展望[J];声学技术;2008年05期
2 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期
3 张磊;刘继芳;项学智;;基于计算听觉场景分析的混合语音分离[J];计算机工程;2010年14期
4 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期
5 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期
6 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年02期
7 张雪峰,刘建强,冯大政;一种快速的频域盲语音分离系统[J];信号处理;2005年05期
8 陈锴;卢晶;徐柏龄;;基于话者状态检测的自适应语音分离方法的研究[J];声学学报;2006年03期
9 董优丽;谢勤岚;;不确定信号源个数的语音分离[J];现代电子技术;2008年03期
10 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期
中国重要会议论文全文数据库 前5条
1 史晓非;王宪峰;黄耀倞;刘人杰;;一个推广参数矢量算法在语音分离中的应用[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年
2 刘学观;陈雪勤;赵鹤鸣;;基于改进遗传算法的混叠语音分离研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 林静然;彭启琮;邵怀宗;;基于麦克风阵列的双波束近场定位及语音分离[A];第二届全国信息获取与处理学术会议论文集[C];2004年
4 茅泉泉;赵力;;基于MIMO的盲信道语音分离技术[A];2004年全国物理声学会议论文集[C];2004年
5 李量;杜忆;吴玺宏;Claude Alain;;人类听皮层在语音分离中对频率线索和空间线索的线性整合[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年
中国博士学位论文全文数据库 前3条
1 王燕南;基于深度学习的说话人无关单通道语音分离[D];中国科学技术大学;2017年
2 赵立恒;基于计算听觉场景分析的单声道语音分离研究[D];中国科学技术大学;2012年
3 王雨;基于计算听觉场景分析的单通道语音分离研究[D];华东理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵训川;基于计算听觉场景分析和麦克风阵列的语音分离的研究[D];燕山大学;2015年
2 何求知;单通道语音分离关键技术研究[D];电子科技大学;2015年
3 曹猛;基于计算听觉场景分析和深度神经网络的混响语音分离[D];太原理工大学;2016年
4 李枭雄;基于双耳空间信息的语音分离研究[D];东南大学;2015年
5 王瑜;基于计算听觉场景分析的三通道语音分离研究[D];燕山大学;2016年
6 王菁;基于计算听觉场景分析的混合语音分离[D];燕山大学;2016年
7 束佳明;基于双耳声源定位的鲁棒语音分离研究[D];东南大学;2016年
8 陈麟琳;基于机器学习的欠定语音分离方法研究[D];大连理工大学;2016年
9 张晖;层叠与深度神经网络研究及其在语音分离中的应用[D];内蒙古大学;2014年
10 童开国;多声源环境下基于听觉中枢系统的语音分离研究[D];重庆邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026