收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于短语音和信道变化的说话人识别研究

蒋晔  
【摘要】:自动说话人识别技术在众多需要语音辅助的应用下,已发展成为越来越重要的现代生物认证技术。自动说话人识别最主要的挑战来自处理测试语料的缺失以及获取语音时环境和信道的差异问题。之前的研究表明,对于训练和测试声学环境一致的高质量语音已可以获得很好的结果,比如采用干净的宽带语音和高斯混合模型(Gaussian Mixture Model, GMM)组成的说话人辨认和确认都能获得很高的识别率。然而现实生活中,往往遇到语料缺失、信道失配甚至远距离等环境,此环境下基于GMM的说话人识别系统性能严重下降,很难达到让人满意的结果。为了进一步提高说话人识别的实用性,鲁棒性研究是说话人识别领域至关重要的研究热点。 目前,训练及测试信道变化是阻碍说话人识别发展的最大障碍,该变化可以是:训练与测试语音分别来自不同类型的传输信道;信道类型相同却来自不同类型的采集设备(话机、麦克风等);训练与测试时采集环境(安静、噪声)或采集方式(近距离、远距离)不同等。本文在信道变化方面的研究,主要集中在远距离说话人辨认、训练与测试语音传输信道不同的说话人确认方面。 本文的主要工作和创新成果点集中在以下几个方面: (1)针对短语音说话人辨认训练及测试语料不充分的特点,对特征参数和GMM模型进行优化和改进,提出一种基于局部模糊主成分分析(Principal Component Analysis, PCA)的GMM说话人辨认方法。该方法采用特征组合代替单一特征,以提高有效特征维数来弥补特征样本的不足,并用局部模糊PCA对组合特征进行有效降维,在对识别率影响很小的前提下,降低了系统的时空复杂度。原始特征维数由48维优化到16维,同时建模时间减少了近65%。本文还对GMM参数初始化方法进行改进,提出分裂法与模糊K均值聚类相结合方法。该改进算法与传统初始化方法相比能有效提高短语音说话人辨认性能。 (2)当测试语音在远距离环境采集时,为提高远距离说话人辨认的鲁棒性,提出了三种补偿技术。第一种补偿在特征提取前采用谱减法去除测试语音的后期混响以达到语音增强的目的,使之尽量减小与训练语音的质量差异;第二种补偿是在特征提取阶段采用特征弯折方法,使同一个说话人的训练和测试语音的特征空间分布尽量吻合;第三种补偿技术是在短语音说话人辨认的研究基础上,同样对GMM模型参数初始化进行改进,提出分裂法与K均值聚类相结合的模型补偿方法。三种补偿方法分别对应说话人辨认的语音增强、特征提取及模型建立三个重要阶段,与传统GMM方法相比,很大程度上提高了远距离说话人辨认的系统性能。 (3)在目前解决信道变化环境下说话人确认的最流行算法联合因子分析(JointFactor Analysis, JFA)基础上,对传统JFA模型训练进行改进,提出一种基于本征信道的空间拼接技术,以解决在训练时因各种信道的语音不均衡而导致的说话人确认性能下降问题。该拼接算法对每一种信道下的语音训练成相应的本征信道空间矩阵,接着对训练好的各种信道下的本征信道空间矩阵进行拼接,作为最后JFA模型中本征信道的初始化,再通过训练得到最终本征信道矩阵。在JFA技术的基础上,又进一步研究了Ⅰ-矢量(Identity-Vector, I-Vector)说话人确认技术。分析目前存在于I-Vector上的多种信道补偿技术,提出了线性鉴别分析(Linear Discriminant Analysis, LDA)与类内协方差规整(Within-Class Covariance Normalization, WCCN)相结合的信道补偿技术,该算法结合了LDA的最大区分性和WCCN的最小化总体代价的优点,能有效提高I-Vector说话人确认性能。 (4)在I-Vector空间应用概率线性鉴别分析(Probabilistic Linear Discriminant Analysis, PLDA)模型解决说话人确认中说话人和信道差异的基础上,本文提倡采用一种无压缩的I-Vector形式。一个I-Vector本质上是来自一个语音段的低维矢量,它包含了说话人和信道的信息。当PLDA应用于I-Vector时,有两次降维——第一次是I-Vector的提取过程,第二次是PLDA模型训练过程。在PLDA训练以及计算得分的过程中保持I-Vector在超矢量空间的完整维度,可以避免不必要的信息损失。在无压缩的I-Vector上采用PLDA的缺点是要计算超大矩阵的逆,本文提出一种把超大矩阵分解成子矩阵的简化求逆方法。本文还提出一种在超矢量空间中的基于排名的高斯化规整技术,可作为PLDA建模前的特征规整方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔玉红,胡光锐,何旭明;基于混合进化计算的GMM优化方法及其在说话人辨认中的应用[J];应用科学学报;2002年02期
2 马建,郭建东;说话人识别技术研究[J];福建电脑;2005年01期
3 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
4 周静芳,陈一宁,李科,刘加;基于高斯语音滤波的稳健文本无关说话人识别[J];计算机工程;2005年02期
5 邓浩江,王守觉,邢藏菊,李倩;基于聚类统计与文本无关的说话人识别研究[J];电路与系统学报;2001年03期
6 王炜,王炳锡,王波;信道补偿技术的发展及其在说话人识别上的应用[J];电声技术;2004年04期
7 余华,赵力,吴镇扬;基于FVQ的说话人识别系统的DSP实现[J];电声技术;2004年08期
8 廖贵成,罗文广;一种基于说话人识别技术的自动音量控制系统[J];桂林电子工业学院学报;2004年06期
9 韩雁,陈利华;说话人计算机识别系统的设计与实现[J];浙江大学学报(工学版);2001年02期
10 吴晓娟,韩先花,聂开宝;模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别[J];电子与信息学报;2002年06期
11 单进;;说话人识别技术研究[J];科技资讯;2010年21期
12 戴红霞,赵力;采用帧概率变换的与文本无关说话人识别系统的实现[J];电声技术;2004年09期
13 武妍,金明曦,王洪波;基于KL-小波包分析的文本无关的说话人识别[J];计算机工程与应用;2005年04期
14 刘雅琴,杜海明;基于矢量量化的说话人识别[J];洛阳师范学院学报;2005年05期
15 刘云冰;彭静;吴传菊;肖俊;祝彦成;;基于HMM的说话人识别[J];科技创业月刊;2007年04期
16 陈炜杰;姚明海;;PLAR在噪声环境下说话人识别中的应用[J];中国新通信;2008年09期
17 檀蕊莲;;基于VQ的说话人识别技术研究[J];信息技术;2010年08期
18 尉洪,周浩,杨鉴;基于矢量量化的组合参数法说话人识别[J];云南大学学报(自然科学版);2002年02期
19 张玲华,杨震,郑宝玉;基于HMM的说话人辨认系统及其改进[J];电讯技术;2003年06期
20 王吉林;利用矢量量化的说话人识别系统的研究[J];安徽工业大学学报(自然科学版);2005年03期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
5 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
6 周静芳;陈一宁;刘润生;;一种新的说话人识别信道补偿技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
7 吴志强;陈珂;迟惠生;;语音识别技术与说话人识别技术的结合——文本无关说话人识别的另一种方法[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 卓群;欧贵文;;基于模糊高斯混合模型的说话人识别算法的一些改进[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
3 王琳琳;说话人识别中的时变鲁棒性问题研究[D];清华大学;2013年
4 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
5 方远香;基于音素分类的短语音说话人识别[D];清华大学;2012年
6 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
7 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
8 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
9 龚呈卉;基于联合因子分析的耳语音说话人识别研究[D];苏州大学;2014年
10 游大涛;基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D];哈尔滨工业大学;2013年
中国硕士学位论文全文数据库 前10条
1 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
2 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
3 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
4 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
5 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
6 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
7 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
8 陈文翔;面向OPHONE手机的说话人识别技术移植研究[D];浙江大学;2011年
9 徐海华;说话人识别方法及其系统的应用开发研究[D];华中科技大学;2004年
10 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
中国重要报纸全文数据库 前10条
1 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
2 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 新城;小声音 大前景[N];计算机世界;2006年
6 本报记者 王璐;科大讯飞:挖掘“说话”技术的商机[N];上海证券报;2008年
7 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
8 陈泰 记者 吴长锋;安徽隆起创新人才高地[N];科技日报;2009年
9 记者 郑千里报道;我国生物识别技术研究获得进展[N];科技日报;2001年
10 赵海霞;语音识别能否助科大讯飞实现腾飞之梦?[N];通信信息报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978