收藏本站
《南京理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

说话人辨认中的特征参数提取和鲁棒性技术研究

李燕萍  
【摘要】: 语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。语音识别是研究使机器能准确地听出人的语音内容的问题,其目的是方便人与机器的交流。说话人识别技术是语音识别的一种特殊形式,其目的不是识别说话人讲的内容,而是识别说话人是谁。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别技术实用化的不断深入,不同应用领域对该技术的要求越来越高。一方面,说话人发音的多变性,要求提取适合说话人识别的特征以保证系统的性能;另一方面,噪声环境、训练与测试数据的时长以及通信信道的失真等问题都严重影响到说话人识别系统在实际应用中的性能。本论文针对文本无关的说话人辨认任务,在说话人个性特征提取和噪声鲁棒性技术两个方面进行了研究,主要内容包括: 1.提出基于特征变换和模糊最小二乘支持向量机的辨认算法。针对最小二乘支持向量机模型在语音数据大样本输入下的局限性,一方面对传统的梅尔倒谱特征MFCC进行基于高斯混合模型的特征变换,解决训练最小二乘支持向量机的过程中需要求解的线性方程组的变量数目与特征数量紧密相关的问题;另一方面,通过引入模糊隶属度函数,处理了最小二乘支持向量机从二分类扩展到说话人辨认的多分类时存在的不可分数据问题。高斯混合模型作为一种经典的生成式模型,不但能有效减少数据量,起到压缩数据的作用,而且由于聚类变换后的结果是高斯混合模型的均值矢量集,能够很好地代表说话人的特征,起到突出说话人信息的作用。基于特征变换和模糊最小二乘支持向量机的辨认算法结合了高斯混合模型在拟合数据方面的优势和最小二乘支持向量机在分类辨别方面的优势,从而改善系统系统的性能。 2.提出基于高斯混合模型的感知特征补偿变换的抗噪声算法。从人类听觉感知特性出发,基于感知线性预测模型从不同层次模拟了人耳的听觉特性,从语音的频谱细节考虑,去除了会引起说话人信息平滑的临界带频谱分析,提取改进的感知对数面积比系数MPLAR作为说话人特征,具有良好的可分性;并在此基础上,根据说话人识别的声学特性,从匹配得分的整体考虑,对模型输出的似然得分引入非线性变换,拉大目标模型与非目标模型的得分比,拉近同一模型各帧得分值,使得各模型的得分值不仅与当前时刻的似然概率有关,还与之前的K个时刻的似然概率有关,解决了MPLAR在不同类型噪声条件下的抗噪性能问题。基于感知特征和模型补偿的说话人辨认算法不仅提供了可分性更好的特征,并且在模型匹配阶段从整体得分的统计特性出发,得到稳定的模型得分,增强了系统在噪声环境下的识别能力。 3.提出基于自适应频率规整的鲁棒性辨认算法。经典的梅尔倒谱特征和感知线性预测特征从人类的听觉感知机理出发,模拟了人类听觉系统对声音频率的感知特性,改进了说话人的识别性能,但是这种处理方式并没有对语义特征和说话人个性特征区别对待,而是在特征提取阶段笼统地降低了高频信息的比重。自适应频率规整算法是基于说话人信息在不同频带呈不均匀分布的原理,从语音生成的生理学角度分析人类在发音过程中的结构变化,从中获取携带说话人信息的生理特征,进而从频谱分析的层次对不同频带对说话人信息的贡献进行量化,指导设计了与Mel频率尺度不同的自适应频率尺度变换,在说话人信息贡献大的区域分配的滤波器个数增多,带宽变小,频率分辨率提高,而贡献小的区域分配的滤波器个数减少,带宽变大,频率分辨率降低,从而进行自适应的频谱滤波,提取区分性特征DFCC。并且针对应用到实际使用环境时存在的训练语音与测试语音失配的问题,对语音频谱进行逐帧逐频率点的预增强处理,去除噪声的干扰,进一步提高系统的鲁棒性。 4.提出基于汉语元音映射的说话人辨认方法。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。由于汉语具有相对稳定的音节结构,并且其中的元音部分占据了主要的能量和时长,基于此,从汉语语音的特点出发,对汉语拼音的结构、发音特点进行分析,并且通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,从短时帧角度将韵母中的元音部分分解为单元音音素的组合,结合大量语音学知识构建了汉语元音映射表,通过汉语元音映射,能够有效地分离语音信号中的语义信息和话者身份信息,将文本无关的说话人识别问题转化为与有限个单元音音素有关的识别问题,并由此衍生出新的说话人建模方法以及新的识别框架,在提高识别率的同时降低对训练和测试数据时长的依赖。在新的识别框架下,提出了一种基于仿生模式识别的说话人辨认算法,在训练阶段利用改进的最近邻覆盖算法为每个单元音音素建立有效的覆盖;在识别阶段根据待测元音帧是否落入对应覆盖区域进行判别,该算法在开集测试条件下对冒名者具有较好的分辨能力。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TN912.34

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 彭诗雅;基于声纹识别的身份认证技术研究[D];南京航空航天大学;2010年
2 白燕燕;基于声纹识别的身份确认系统的研究[D];西安工业大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期
2 刘鸣,戴蓓倩,李辉,陆伟,李霄寒;鲁棒性话者辨识中的一种改进的马尔科夫模型[J];电子学报;2002年01期
3 王守觉;仿生模式识别(拓扑模式识别)——一种模式识别新模型的理论与应用[J];电子学报;2002年10期
4 黄磊,吴顺君,张林让,冯大政;快速子空间分解方法及其维数的快速估计[J];电子学报;2005年06期
5 钱博;李燕萍;唐振民;徐利敏;;基于频域能量分布分析的自适应元音帧提取算法[J];电子学报;2007年02期
6 田滨,曹志刚;帧间约束MMSE语音增强算法[J];电子学报;1995年09期
7 白俊梅;张世磊;张树武;徐波;;噪声环境下的鲁棒性说话人识别[J];中文信息学报;2006年01期
8 朱磊;江杰;郑榕;徐波;;一种快速说话人搜索算法[J];中文信息学报;2008年02期
9 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
10 吕成国,王承发,李俊庆,韩纪庆,徐近霈;RASTA-PLP技术与谱减相结合的去噪方法[J];自动化学报;2000年05期
中国博士学位论文全文数据库 前2条
1 刘明辉;基于GMM和SVM的文本无关的说话人确认方法研究[D];中国科学技术大学;2007年
2 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 罗云贵;张友纯;;嵌入式语音门禁系统的设计与实现[J];安防科技;2010年02期
2 张道信,周爱毓;语音信号实时降噪软件的设计[J];安徽大学学报(自然科学版);2004年04期
3 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
4 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
5 周元一;王建平;;汉字多属性认知特征提取研究及应用[J];安徽工程科技学院学报(自然科学版);2006年02期
6 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
7 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
8 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
9 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
10 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
3 宋海鹰;桂卫华;阳春华;;基于最小二乘支持向量机的Hammerstein-Wiener模型辨识[A];第二十六届中国控制会议论文集[C];2007年
4 ;Inverse System Control of Nonlinear Systems Using LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
5 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
6 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
7 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
8 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
9 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
10 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
6 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
7 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
8 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
9 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
10 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
中国硕士学位论文全文数据库 前10条
1 曾传华;基于颜色和纹理特征的竹条分级方法研究[D];华中农业大学;2010年
2 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
3 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
4 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
5 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
6 王萍;语音情感识别研究[D];山东科技大学;2010年
7 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
8 孟培培;基于3S的土地督察信息系统研究[D];山东科技大学;2010年
9 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
10 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 吴淑珍,吴阿华;说话人识别的参量研究和语音库建设[J];北京大学学报(自然科学版);1995年03期
2 杨建华;于小宁;;说话人识别中语音特征参数研究[J];大理学院学报;2009年08期
3 李霄寒,戴蓓倩,方绍武,刘鸣;基于子带HMM和MLP的话者确认系统的噪声鲁棒性研究[J];电路与系统学报;2002年02期
4 马志友,杨莹春,吴朝晖;二次特征提取及其在说话人识别中的应用[J];电路与系统学报;2003年02期
5 丁艳伟;戴玉刚;;基于VQ的说话人识别系统[J];电脑知识与技术;2008年32期
6 杨阳;陈永明;;声纹识别技术及其应用[J];电声技术;2007年02期
7 韩纪庆,高文;基于环境特征判别学习的顽健语音识别方法[J];电子学报;2001年02期
8 余菲;马道钧;李鹏;;一种改进的VQ算法在说话人识别上的应用[J];仪器仪表用户;2008年01期
9 赵淑敏;;基于MATLAB实现对语音信号频谱分析[J];信息通信;2010年04期
10 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
中国重要会议论文全文数据库 前1条
1 吕成国;冯朝斌;高钰莹;;用于话者识别的MFCC特征提取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 王波;电话信道文本无关说话人识别[D];中国人民解放军信息工程大学;2002年
2 徐爽;小波分析理论在说话人识别中的应用研究[D];燕山大学;2004年
3 王稚慧;基于HMM建模的语音识别算法的研究[D];西安建筑科技大学;2005年
4 谷志新;基于声纹信息的身份认证模式与算法的研究[D];东北林业大学;2005年
5 郭春霞;基于MFCC的说话人识别系统研究[D];西安电子科技大学;2006年
6 张长胜;HMM在语音识别中的应用研究[D];吉林大学;2006年
7 李卓辉;基于声纹特征的身份认证技术研究和实现[D];华东师范大学;2007年
8 郭晓玲;基于矢量量化的说话人识别[D];东北电力大学;2008年
9 陈燕;用户定制口令声纹识别系统研究与嵌入式实现[D];厦门大学;2009年
10 杨春风;基于语谱图的音频数字水印算法[D];西北师范大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 王洁;V支持向量机中参数的优化及在语音识别中的应用[D];太原理工大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期
2 包威权,陈珂,迟惠生;基于HMM/MLFNN混合结构的说话人辨认研究[J];北京大学学报(自然科学版);1997年03期
3 李霄寒,戴蓓倩,方绍武,刘鸣;基于子带HMM和MLP的话者确认系统的噪声鲁棒性研究[J];电路与系统学报;2002年02期
4 陈永彬;;位片式线性预测声码器设计[J];南京工学院学报;1985年02期
5 曹志刚,郑文涛;基于短时谱最小均方误差估计的语音增强和剩余噪声衰减[J];电子学报;1993年04期
6 付强,易克初;语音信号的Bark子波变换及其在语音识别中的应用[J];电子学报;2000年10期
7 王守觉,李兆洲,陈向东,王柏南;通用神经网络硬件中神经元基本数学模型的讨论[J];电子学报;2001年05期
8 王守觉,王柏南;人工神经网络的多维空间几何分析及其理论[J];电子学报;2002年01期
9 赵莹 ,高隽 ,汪荣贵 ,胡静;一种新的广义最近邻方法研究[J];电子学报;2004年S1期
10 覃鸿,王守觉;多权值神经元网络仿生模式识别方法在低训练样本数量非特定人语音识别中与HMM及DTW的比较研究[J];电子学报;2005年05期
中国博士学位论文全文数据库 前3条
1 田斌;实用化汉语语音识别理论及关键技术研究[D];西安电子科技大学;1999年
2 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
3 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 张玲华,石操,张子菁,杨震,郑宝玉;说话人辨认系统中码本生成的新算法[J];信号处理;2004年04期
2 王成儒,王金甲,练秋生;一种新的用于说话人辨认的PNN分类器的研究(英文)[J];自动化学报;2004年03期
3 邱政权,江太辉;GMM/ANN混合说话人辨认模型[J];计算机工程与应用;2004年17期
4 王成儒,王金甲,李静;一种用于说话人辨认的概率神经网络的MCE训练算法[J];仪器仪表学报;2002年S3期
5 茅晓泉,胡光锐,唐斌;说话人辨认中基于进化策略的最大互信息训练方法[J];上海交通大学学报;2003年03期
6 何致远,胡起秀,徐光祐;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期
7 张玲华,杨震,郑宝玉;基于HMM的说话人辨认系统及其改进[J];电讯技术;2003年06期
8 林江云;;说话人辨认中GMM模型的聚类优化研究[J];心智与计算;2008年01期
9 殷启新,韩春光,杨鉴;基于掌上电脑录音的说话人辨认[J];云南民族大学学报(自然科学版);2003年04期
10 马建,郭建东;说话人识别技术研究[J];福建电脑;2005年01期
中国重要会议论文全文数据库 前10条
1 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
2 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 王成儒;王金甲;李静;;一种用于说话人辨认的概率神经网络的MCE训练算法[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
4 彭诗雅;;声纹识别技术研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
5 倪建克;曾虹;张翔;;基于最大均值似然判决规则的说话人辨认研究[A];浙江省电子学会2006年学术年会论文集[C];2006年
6 张玲华;郑宝玉;杨震;;一种新的具有噪声鲁棒性的说话人语音特征及其应用[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
7 包威权;陈珂;迟惠生;;基于HMM/MLFNN混合结构的说话人辨认研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 王金甲;王成儒;李静;;自组织混合神经网络在说话人识别中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
9 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 胡婕;周琳;;基于最大似然聚类的GMM优化方法及其在说话人辨认中的应用[A];2009年通信理论与信号处理学术年会论文集[C];2009年
中国重要报纸全文数据库 前1条
1 ;解密声纹锁 一声令下,“芝麻开门”[N];广东科技报;2011年
中国博士学位论文全文数据库 前10条
1 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年
2 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
3 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年
4 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年
5 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年
6 唐建;矢量量化码书设计与矢量量化应用研究[D];中国科学技术大学;2006年
7 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
8 李志慧;虹膜识别特征提取与表达的理论和方法研究[D];吉林大学;2007年
9 肖伯祥;运动捕捉数据处理、检索与重构方法研究[D];大连理工大学;2009年
10 段大鹏;基于UHF方法的GIS局部放电检测与仿生模式识别[D];上海交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 王金甲;噪声环境下鲁棒性文本自由说话人辨认系统的研究[D];燕山大学;2003年
2 曹华;复杂性分析方法在语音及图像处理中的应用研究[D];浙江大学;2004年
3 常志国;说话人识别系统的研究与实现[D];上海师范大学;2004年
4 赵果;嵌入式声纹识别系统研究[D];西华大学;2008年
5 王义元;基于独立分量分析和遗传算法的说话人辨认[D];吉林大学;2005年
6 王红睿;基于连续隐马尔可夫模型的说话人识别[D];吉林大学;2006年
7 胡若华;改进的核函数算法及其在说话人辨认中的应用研究[D];北京交通大学;2008年
8 阮柏尧;脉冲耦合神经网络(PCNN)在基于语谱图的说话人识别中的应用[D];五邑大学;2008年
9 李荟;基于自适应和MCE的说话人识别模型训练技术[D];哈尔滨工业大学;2007年
10 李雪林;说话人识别中不同语音编码影响的补偿方法[D];哈尔滨工业大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026