收藏本站
《中国科学技术大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

说话人识别中提高GMM性能方法的研究

姚志强  
【摘要】:利用语音信号进行说话人身份识别,是语音研究领域的一个重要方向,具有越来越重要的社会意义和实用价值。根据说话的内容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面广的特点而成为主要研究课题。 在文本无关说话人识别中,GMM将话者识别问题转换成对话者语音数据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型表达形式的选择、模型参数的训练,以及概率的计算等等子问题,解决了话者识别任务中的很多难题。并且由于GMM具有简单、灵活、有效的特点以及较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术。近年来,在复杂背景环境下,UBM-MAP-GMM表现出更为优异的性能,特别是对失配情况有很高的鲁棒性。 然而,GMM对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计,这就限制了GMM模型的性能。首先,由于特征矢量维数较高,使用全矩阵形式协方差会导致参数巨大而无法可靠估计。其次,虽然使用对角形式的协方差矩阵模型参数较少,但是其隐含的前提假设是参数各维之间不相关,这种假设是不合理的。最后,由于自适应数据有限,使得目前对UBM作自适应得到目标GMM时只能自适应均值,而无法对协方差参数进行自适应。 为了进一步提高文本无关说话人识别系统的性能,本文从上述三个方面展开研究,分别提出不同的方法,在有限的训练集的条件下,提高文本无关下的GMM模型性能。 首先,针对全协方差矩阵模型参数过多,难以可靠估计的问题。本文提出了一种基于相关系数矩阵共享的协方差矩阵直接估计方法。这种方法既保证了GMM总的模型参数不致过高,可以可靠估计,又使得GMM具有显式描述特征矢量各维之间的相关性能力。 其次,虽然可以在特征空间进行线性解相关,使特征矢量各维相关性减弱,使之适合对角协方差假设。然而,由于特征矢量分布形式的复杂性,很难找到一个线性变换矩阵,为空间中所有的特征矢量解相关。因此,本文提出了一种基于模型的分类子空间解相关的方法,利用GMM对特征矢量空间分布的描述,将特征空间分解成多个子空间,在每个子空间中分别进行特征矢量的线性解相关,从而使解相关更为精细。 为了有效实现上述两种方法,本文分别提出了两种对GMM中的高斯成分进
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2006
【分类号】:TN912.34

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 俞振利;张礼和;;一种非限定语音说话人实时识别的方法及其实现[J];信号处理;1990年03期
2 邓浩江,王守觉,邢藏菊,李倩;基于聚类统计与文本无关的说话人识别研究[J];电路与系统学报;2001年03期
3 陈芬菲;;基于GMM的说话人识别系统[J];微处理机;2006年04期
4 余华,赵力,吴镇扬;基于FVQ的说话人识别系统的DSP实现[J];电声技术;2004年08期
5 李财莲;赵小阳;王丽娟;岳振军;;说话人识别中关键技术的现状与发展[J];军事通信技术;2005年02期
6 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
7 张燕;唐振民;李燕萍;;基于单字音特征提取的说话人识别方法[J];计算机工程;2009年10期
8 但志平;胡刚;刘勇;;基于LPC倒谱参数分析的说话人识别系统[J];三峡大学学报(自然科学版);2007年01期
9 张芸;李昕;郑宇;杨庆涛;;一种基于Fisher准则的说话人识别方法研究[J];兰州大学学报(自然科学版);2007年02期
10 成新民;张迎;蒋云良;;基于FVQMM的说话人识别[J];辽宁工程技术大学学报;2007年05期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
4 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
5 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
6 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
7 崔玉红;胡光锐;;基于神经网络特征维数压缩方法及其在说话人识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
8 周静芳;陈一宁;刘润生;;一种新的说话人识别信道补偿技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 龙川;景新幸;杨海燕;;矢量量化与协方差矩阵结合的说话人识别方法[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
10 张庆芳;赵鹤鸣;苏秦;;基于改进Kohonen网络训练算法的说话人识别系统[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
2 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 新城;小声音 大前景[N];计算机世界;2006年
6 本报记者 王璐;科大讯飞:挖掘“说话”技术的商机[N];上海证券报;2008年
7 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
8 陈泰 记者 吴长锋;安徽隆起创新人才高地[N];科技日报;2009年
9 记者 郑千里报道;我国生物识别技术研究获得进展[N];科技日报;2001年
10 赵海霞;语音识别能否助科大讯飞实现腾飞之梦?[N];通信信息报;2008年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
3 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年
4 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
5 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年
6 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
7 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
8 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
9 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年
10 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
2 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
3 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
4 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
5 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
6 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
7 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
8 陈文翔;面向OPHONE手机的说话人识别技术移植研究[D];浙江大学;2011年
9 徐海华;说话人识别方法及其系统的应用开发研究[D];华中科技大学;2004年
10 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026