收藏本站
《哈尔滨工业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于听觉机理的鲁棒特征提取及在说话人识别中的应用

游大涛  
【摘要】:声学特征在自动语音识别技术中扮演着重要的角色,它的可辨识性和可区分性直接影响着最终的识别性能。经过研究者的不懈努力,声学特征的研究工作已经取得了重大进步,涌现了一些具有代表性的声学特征,大大促进了自动语音识别技术性能的提升。然而大量研究表明,在低信噪比的噪音环境下,特别是在非平稳噪音环境下,自动语音识别技术的性能与人类的听觉能力相比,尚有相当大的差距。究其原因,声学特征的鲁棒性较差的问题是导致这种情况的关键因素之一。研究还表明,仿真人耳的听觉机理有助于提升特征的鲁棒性,然而这方面的研究工作尚不完善,听觉系统在鲁棒性方面的相关机理还未能得到充分地挖掘。为了进一步提升自动语音识别技术的性能,仍需在仿真人耳的听觉机理方面投入大量的研究工作。 针对声学特征在噪音环境下的鲁棒性问题,鉴于人类听觉系统的强鲁棒性,本文对基于听觉机理的鲁棒特征提取技术进行了研究,提出了几种鲁棒特征提取方法,并在说话人识别系统中对所提出特征的鲁棒性进行了评估和验证。本文的主要研究工作如下: (1)借鉴耳蜗在信号处理方面的非线性工作机制,提出了一种仿真耳蜗机理的鲁棒特征提取方法。首先,对常用的耳蜗滤波器组Gammatone进行了分析,指出了其在语音信号分解方面的不足,并在此基础上从语音信号处理的角度,给出了一个能有效体现基底膜滤波能力的滤波器组。接着,鉴于覆膜和基底膜间的耦合机制在听觉产生过程中所起的重要作用,模拟该耦合机制设计了一个频率选择性增益函数。然后,在上述研究工作基础上设计了一种基于耳蜗非线性处理机制的鲁棒特征提取方法。在说话人识别系统上的验证结果表明,由该方法生成的特征在鲁棒性方面优于梅尔频率倒谱系数(Mel Frequency Cepstral Coefcients, MFCC)和感知线性预测系数(PerceptualLinear Predictive, PLP)特征。 (2)借鉴听觉中枢对声音信号的神经表示机制,提出了一种仿真听觉中枢编码方式的鲁棒特征提取方法。首先,明确了声音信号的内蕴时频结构(underlying structure)与听觉中枢神经表示之间的对应关系,并给出了内蕴时频结构的获取方法。接着,为了对获取的内蕴时频结构的有效性进行分析,给出了关于内蕴时频结构有效性的判断准则和度量方法,并提出了相应的优化方法。最后,在上述基础上提出了一种仿真听觉中枢编码方式的鲁棒特征提取方法。实验结果表明,与MFCC和PLP特征相比,由该方法生成的特征表现出较好的鲁棒性。 (3)借鉴人类听觉在混合音分离方面的工作机制和超强能力,提出了一种基于听觉声源分离功能的鲁棒特征提取方法,并对仿真听觉中枢编码方式的声学特征提取方法进行了改进。首先,借鉴听觉的声源分离机制,以语音内蕴时频结构和噪音内蕴时频结构近似听觉中枢中语音和噪音的先验知识,并以语音和噪音的内蕴时频结构组成的联合基作为处理带噪语音时的分解字典。然后,针对联合基间较高的互相干性会导致声源分离失真的问题,提出了一个关于联合基间互相干性的优化算法,并从理论上证明了该算法的收敛性,且实验结果也表明该优化算法有助于提升基于联合基的稀疏表示在噪音和语音分离方面的性能。最后,在上述工作基础上,提出了一种基于听觉声源分离机制的声学特征提取方法。实验结果表明,由该方法生成的特征在鲁棒性方面不仅优于MFCC和PLP特征,而且还优于改进前的声学特征。 (4)结合上述三方面的研究工作,给出了一个基于听觉机理的鲁棒特征提取框架。该框架由两层具有不同信号处理功能的模块串联而成,它们分别是基于听觉系统关注功能的目标音剥离层和基于听觉机理的特征表示层。其中,根据自动语音识别技术的需求,目标音剥离层还可以进一步细分为混合音分离和语音活动检测(Voice Activity Dectection,VAD)两层。前者主要将目标语音信号从噪音中提取出来,后者则在此基础上从语音信号中提取语音片段并剥离静音片段。之后,在该特征框架指导下,结合听觉声源分离功能和耳蜗非线性处理机制提出了一种鲁棒的声学特征。此外,为了向前兼容并为后一层提供有效的语音片段,本文还提出了一个基于声源分离机制的语音活动检测方法。实验结果表明,该特征在鲁棒性方面不但优于MFCC和PLP特征,而且还优于本文提出的前三种声学特征。另外,语音活动检测方面的实验结果表明,本文提出的语音活动检测方法优于经典的基线方法。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.41

【共引文献】
中国期刊全文数据库 前2条
1 陈日林;刘哲;滕鹏晓;杨亦春;;基于旁瓣级最小化的平面螺旋阵列设计的粒子群优化方法[J];应用声学;2011年06期
2 陈克安;伍莹;杨立学;;基于Shamma模型的车辆噪声听觉谱特性与目标分类[J];应用声学;2011年06期
【相似文献】
中国期刊全文数据库 前10条
1 房晔;周亚滨;;基于概率神经网络说话人识别的算法研究[J];电子测量技术;2008年08期
2 李泽;崔宣;马雨廷;陈俊宇;;MFCC和LPCC特征参数在说话人识别中的研究[J];河南工程学院学报(自然科学版);2010年02期
3 陈皓,付中华,赵荣椿;基于G.729编码参数的语音特征及其应用[J];西北大学学报(自然科学版);2005年03期
4 李战明;王贞;;矢量量化与神经网络相结合的说话人识别系统[J];计算机工程与应用;2006年15期
5 王书诏;邱天爽;;与文本无关的说话人识别系统的设计[J];电声技术;2006年12期
6 谢迎春;;小波变换在说话人识别中的应用研究[J];武警工程学院学报;2009年02期
7 檀蕊莲;;小波消噪在说话人识别系统中的应用[J];科技资讯;2010年09期
8 谢建勋;;浅谈说话人识别技术[J];电脑知识与技术;2011年11期
9 赵立志;李辉;陈海东;魏士勇;;支持向量机在说话人识别系统中的应用[J];China's Foreign Trade;2011年14期
10 李姮;胡维平;;基于GMM的说话人识别[J];广西物理;2011年01期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 张彬桥;;基于主分量分析的说话人特征提取[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 许鑫;苏开娜;胡起秀;;几种改进的MFCC特征提取方法在说话人识别中的应用[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 鲍福良;方志刚;徐洁;;说话人识别综述[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
8 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
9 张飞云;盛胜我;;混响声场中语音识别的未来与发展研究[A];2005年声频工程学术交流会论文集[C];2005年
10 赵美泽;王峰;;基于消除混响的语音识别技术研究[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
中国重要报纸全文数据库 前10条
1 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
2 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 解放军总医院耳鼻喉科主任 杨仕明 李佳楠 整理;听觉植入 我们期待什么[N];健康报;2011年
6 新城;小声音 大前景[N];计算机世界;2006年
7 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
8 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
9 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
10 本报记者 王璐;科大讯飞:挖掘“说话”技术的商机[N];上海证券报;2008年
中国博士学位论文全文数据库 前10条
1 游大涛;基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D];哈尔滨工业大学;2013年
2 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
3 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
4 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
5 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
6 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
7 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
8 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年
9 张冰;人类听觉信息处理机制的心理物理学研究[D];华中科技大学;2012年
10 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
中国硕士学位论文全文数据库 前10条
1 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
2 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
3 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
4 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
5 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
6 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
7 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
8 许艳红;HHT变换在说话人识别中的应用[D];浙江大学;2005年
9 顾彦飞;说话人识别算法研究及SOPC设计[D];重庆大学;2010年
10 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026