收藏本站
《中国科学技术大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于若干声纹信息空间的说话人识别技术研究

王尔玉  
【摘要】:随着说话人识别技术的日臻成熟,研究人员开始专注于实际应用中面临的各种问题,提出合理的解决方案,以不断的提升系统性能,将说话人识别技术真正地推向实用化。而在研究和应用当中,如何获取体现说话人身份的声纹信息,以及如何应用这些信息进行辨识都是当前的热点研究问题。声纹信息是一种超音段信息,承载这种信息的载体分布于对应说话人所说的全部语音数据当中,但是不同的声纹信息载体反映说话人信息的能力并不相同。本文将承载说话人身份信息的某种载体所能表征的所有相关声纹信息,称为声纹信息空间。于是在语音数据中,就存在若干个能够用于说话人识别技术的声纹信息空间。本文将从音素空间,时域空间,频率空间,深层特征空间这四个层面的声纹信息空间入手,展开深入的研究,以求在相应的声纹空间中获得合适的特征表述,确定合适的建模方法。本论文主要的工作如下: 1.基于音素空间的说话人识别技术 音素片段当中不仅包含文本信息,同时也包含有说话人身份的信息,因此音素片段是一种声纹信息的载体。可以通过这个载体表征的所有声纹信息,被称之为音素空间。本文目的在于,在这个独特的声纹信息空间当中,提取并应用反映说话人身份特性的信息。首先本文借助音素级别的谱包络模版集合,来揭示不同说话人之间的身份差异。进一步的,为了消除单一谱包络模版集合表征的音素空间不完备,造成的声纹信息遗漏的问题,因此本文引进了多组谱包络模版集合来刻画声纹信息。使用音素模版集合刻画声纹信息,类似于在音素空间中进行声纹信息的编码过程,因此我们称这种方法为多语言编码的说话人识别系统。为了量化音素模版代表的说话人信息,本文同时使用最大似然线性回归准则估计出来的映射矩阵和偏移向量来体现这些声纹信息。最后,为了获取多个音素空间中谱包络模版集合之间的信息互补能力,本文尝试了多种合理的信息融合策略。实验表明,在音素空间中,本文提出的方法获得了系统性能上的提升,达到了本文的预期目的。2.基于时域空间的说话人识别技术 相同说话人在不同的通信环境下,以及不同的自身状态下,产生的语音数据在表达形式上差异很大。而体现说话人特性的声纹信息,却蕴藏在这些产生在不同时间点的表达形式当中。本文把蕴藏在来自不同时间段语音内部的声纹信息,称为时域空间。常用的说话人识别系统在这种变化的环境下,识别性能会遭受较大的衰减。传统的方法使用因子分析或者扰动属性映射来消除这些不利的影响,而本文试图用非监督自适应模型的方法来解决时域空间中的这一问题。非监督自适应的方法,在模型训练的过程中,不停地使用采集自不同时间段的语音数据来更新模型,这有效的利用了分布在不同时间段上的声纹信息。本文首先回顾了非监督自适应方法在模型域上的实现,介绍了硬判决和软判决这两种更新策略。然后提出了非监督自适应在得分域上的改进算法。通过定义得分先验分布,以及得分置信度,最终得到针对得分规整的一种非监督算法。这种时域空间上说话人识别技术,避免了模型域更新带来的大规模的计算复杂度,同时也可以获得不错的识别性能。3.基于频域空间的说话人识别技术 语音信号频谱上的各个频带之间存在着一定的相关特性,这种相关特性不仅揭示了语音的文本信息,同时也反映着说话人身份的信息。这种说话人信息载体所体现的所有声纹信息被称为频域空间。为了揭示频域空间中包含的声纹信息,以及它们所具有的话者识别能力,本文首先通过实验,证明了协方差建模对于描述声纹信息分布起着的较为重要的作用。由于协方差矩阵在真实环境中,面临着参数估计较为困难的情况,本文提出了两种稳定的参数估计方法。在获得了协方差估计之后,通过构造与均值超级向量相似的信息表达方式,得到了协方差超级矩阵。随后,本文提出了两种超级矩阵的距离度量公式,来表征频域空间上的声纹信息的相似程度。最后通过合理的分类器设计,在频域空间获得了与主流均值超级向量系统相似的识别性能,并且与之有一定的互补能力。 4.基于深层特征空间的说话人识别技术 传统的识别系统中,无论是建模过程还是特征提取,均可以使用浅层结构来解释。本文试图利用深层神经网络结构,来探索蕴藏在频谱信息当中,深层特征空间上的声纹信息。本文首先通过深层神经网络结构,来模拟人类对于声纹信息的感知。深层神经网络结构的训练分为两个部分:一个是非监督的特征扩展操作,在这个阶段中,网络结构将原始的语音数据映射为具有抽象概括能力的深层特征表示。但是经由深层网络结构获得的深层特征表征,并没有清楚的分离说话人信息与其他非说话人的信息。于是本文提出了网络训练的另一个重要步骤,即精细调节操作。这个步骤作用在深层特征空间中,目的是进一步提取声纹信息。为此本文提出了两个限制条件,即通过稀疏编码限制以及说话人距离限制。在深层特征空间,精细调节网络结构,尽可能地分离说话人相关和无关这两部分信息。为了避免深层特征空间中的声纹信息被其他因素干扰,本文选择干净的TIMIT数据库进行实验验证。目前的实验结果表明,基于深层网络结构获取的深层特征空间上声纹信息,具有很好的识别性能,并且与传统的声学特征有很强的信息互补能力。在深层特征空间中获取的实验结果,为进一步研究说话人身份感知的机理提供了有力的支持。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TN912.34

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 王尔玉;郭武;李轶杰;戴礼荣;王仁华;;采用模型和得分非监督自适应的说话人识别[J];自动化学报;2009年03期
2 王仁华;;自动说话人识别[J];信号处理;1991年04期
3 李轶杰;郭武;戴礼荣;;话者识别的信道补偿[J];小型微型计算机系统;2008年12期
中国博士学位论文全文数据库 前2条
1 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
2 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 桂苹,吴镇扬,赵力,王维新;基于VQ的说话人自动识别系统的实现[J];电声技术;2003年10期
2 龚伟;汪鲁才;;基于VQ的与文本相关说话人识别研究[J];电声技术;2006年04期
3 陈红红;荀雨辰;王立石;袁野;丁匡正;陈宬;;浅谈语音领域的创造性审查[J];电声技术;2012年S1期
4 陈宝远;姜海鹏;史玲玲;王正;王晓亮;;矢量量化的音频信号类型确认算法的研究[J];哈尔滨理工大学学报;2010年01期
5 李战明;林娟;陈若珠;;组合特征和二级判断模型相结合的说话人识别[J];计算机工程与应用;2011年10期
6 武宁;肖星星;冯瑞;;家用机器人的说话人识别系统[J];计算机工程;2012年02期
7 肖星星;冯瑞;;基于共性特征选择的短时说话人识别方法[J];计算机工程;2012年24期
8 罗利;张友纯;;基于改进后的VQ说话人识别系统研究[J];软件导刊;2008年12期
9 彦君,何东光;自动讲话人辨认[J];山东大学学报(自然科学版);1994年02期
10 荣蓉;;基于神经网络的与文本相关说话人辨认系统[J];山东科学;2008年04期
中国重要会议论文全文数据库 前2条
1 狄金海;赵力;;基于改进的FVQ的说话人识别系统的实现[A];2008’促进中西部发展声学学术交流会论文集[C];2008年
2 沈波;;基于特征参数性别规整的说话人识别系统[A];2009’中国西部地区声学学术交流会论文集[C];2009年
中国博士学位论文全文数据库 前8条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
3 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
4 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
5 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
6 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
7 方瑜;语音增强相关问题研究[D];北京邮电大学;2012年
8 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 武宁;复杂信道下的说话人识别技术[D];复旦大学;2011年
2 陈伟;信道失配条件下的话者确认研究[D];中国科学技术大学;2011年
3 顾晓江;不匹配信道下耳语音说话人识别研究[D];苏州大学;2011年
4 颜宗岳;数字波导网格模型及语音网格参数估计[D];苏州大学;2011年
5 王吉林;利用矢量量化(VQ)和混合高斯模型(GMM)的说话人识别的研究[D];东南大学;2004年
6 余浩;说话人识别的自适应算法研究[D];武汉理工大学;2005年
7 王琛;语音中身份与情感信息提取及其在普适计算中的应用[D];北京交通大学;2007年
8 纪现清;文本无关说话人确认及其应用研究[D];北京交通大学;2008年
9 陈晓阳;远程语音通话实时说话人确认系统研究与实现[D];厦门大学;2009年
10 陈俊;基于线谱对系数和高斯混合模型的说话人识别技术研究[D];中南大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 王炜,刘峰,吴淑珍;RASTA滤波在语音通信质量客观评价中应用的研究[J];北京大学学报(自然科学版);2003年05期
2 史静朴,陈际,陈向东,陈川,王守觉;用神经计算机的说话人确认系统及其应用[J];电子学报;1999年10期
3 邓浩江,杜利民,万洪杰;似然得分归一化及其在与文本无关说话人确认中的应用[J];电子与信息学报;2005年07期
4 韩纪庆,王承发,高文;二阶CMS用于电话语音识别的通道补偿[J];哈尔滨工业大学学报;1998年06期
5 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
6 刘波;戴礼荣;王仁华;杜俊;李锦宇;;基于双高斯GMM的特征参数规整及其在语音识别中的应用[J];自动化学报;2006年04期
7 龙艳花;郭武;戴礼荣;;一种基于说话者话路变化的主成分分析方法[J];模式识别与人工智能;2009年02期
8 祖漪清;汉语连续语音数据库的语料设计[J];声学学报;1999年03期
9 王仁华;;自动说话人识别[J];信号处理;1991年04期
10 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
中国重要会议论文全文数据库 前1条
1 郭武;戴礼荣;王仁华;;采用UBM更新量的说话人确认[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前1条
1 李轶杰;说话人识别中的信道补偿[D];中国科学技术大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 崔玉红,胡光锐,何旭明;基于混合进化计算的GMM优化方法及其在说话人辨认中的应用[J];应用科学学报;2002年02期
2 马建,郭建东;说话人识别技术研究[J];福建电脑;2005年01期
3 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
4 周静芳,陈一宁,李科,刘加;基于高斯语音滤波的稳健文本无关说话人识别[J];计算机工程;2005年02期
5 邓浩江,王守觉,邢藏菊,李倩;基于聚类统计与文本无关的说话人识别研究[J];电路与系统学报;2001年03期
6 王炜,王炳锡,王波;信道补偿技术的发展及其在说话人识别上的应用[J];电声技术;2004年04期
7 余华,赵力,吴镇扬;基于FVQ的说话人识别系统的DSP实现[J];电声技术;2004年08期
8 廖贵成,罗文广;一种基于说话人识别技术的自动音量控制系统[J];桂林电子工业学院学报;2004年06期
9 韩雁,陈利华;说话人计算机识别系统的设计与实现[J];浙江大学学报(工学版);2001年02期
10 吴晓娟,韩先花,聂开宝;模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别[J];电子与信息学报;2002年06期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
5 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
6 周静芳;陈一宁;刘润生;;一种新的说话人识别信道补偿技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
7 吴志强;陈珂;迟惠生;;语音识别技术与说话人识别技术的结合——文本无关说话人识别的另一种方法[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 卓群;欧贵文;;基于模糊高斯混合模型的说话人识别算法的一些改进[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
中国重要报纸全文数据库 前10条
1 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
2 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 本报记者 李婵;用声音当钥匙声纹锁是否更安全[N];北京科技报;2005年
6 ;解密声纹锁 一声令下,“芝麻开门”[N];广东科技报;2011年
7 新城;小声音 大前景[N];计算机世界;2006年
8 黄中;指纹 声纹 味纹和DNA纹[N];中国知识产权报;2001年
9 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
10 张泽民;伪装语音研究[N];人民公安报;2004年
中国博士学位论文全文数据库 前10条
1 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
2 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
3 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
4 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
5 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
6 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
7 张冰;人类听觉信息处理机制的心理物理学研究[D];华中科技大学;2012年
8 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
9 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年
10 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
中国硕士学位论文全文数据库 前10条
1 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
2 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
3 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
4 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
5 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
6 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
7 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
8 陈文翔;面向OPHONE手机的说话人识别技术移植研究[D];浙江大学;2011年
9 徐海华;说话人识别方法及其系统的应用开发研究[D];华中科技大学;2004年
10 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026