收藏本站
《东北大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

语音信号鲁棒特征提取及可视化技术研究

韩志艳  
【摘要】:语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类思维的一种依托。而对听力障碍者来说,语言交流变成一件很难实现的事情。一部分聋哑人不能说话是因为他们的听觉器官遭到破坏,不能将语音信息采集到大脑,但发音器官是完好的。这种情况下的聋哑人,如果辅助于一些视觉训练系统,经过一段时间的专门训练,是可以学会说话并和健全人进行交流的。这样为残障者进行听力无损补偿的语音可视化技术便应运而生。本课题便立足于这一研究构想,通过提取语音信号的特征参数,将其与图像进行映射,产生具有声音意义的图像,供听力障碍者学习并认知,辅助听力障碍者听到声音。而语音信号特征提取是关系到语音识别和可视化系统性能的一个重要指标,目前提取的语音特征参数在安静的环境下具有很好的鲁棒性,但是这些参数一旦应用于噪声环境时,其性能会急剧下降。所以本文主要针对低信噪比环境下特征参数的提取及这些特征参数在语音可视化中的应用进行了深入的研究。 本文的主要研究内容和创新点有以下几个方面: (1)为了提高低信噪比下语音端点检测的准确率,提出了一种端点检测算法。其核心技术是利用短时能零积与鉴别信息的互补优势,首先利用短时能零积的方法进行判决,当遇到噪声帧与语音帧的转折帧时,利用基于子带能量鉴别信息的方法来进行复检,从而避免了因噪声幅度急剧变化而导致的误检。并提出了一种动态更新噪声能量门限的方法,从而能更准确地跟踪噪声能量的变化。仿真实验结果表明,提出的方法在信噪比变化比较剧烈的情况下仍能准确快速地检测出语音的起止点,对语音信号的后续研究起到了很好的铺垫作用。 (2)由于小波神经网络的学习效果对网络隐层节点数、初始权值(包括阂值)、伸缩和平移因子以及学习率和动量因子的依赖性较大,致使其全局搜索能力弱,易陷入局部极小,收敛速度减慢,甚至不收敛。而遗传算法具有的高度并行、随机、自适应搜索性能,使它在处理用传统搜索方法解决不了的复杂和非线性问题时,具有明显的优势。因此,我们考虑把遗传算法和神经网络相结合,采用遗传算法选取初值进行训练,用小波神经网络完成给定精度的学习。仿真实验结果表明,该模型有效地提高了语音的识别率,并缩短了识别时间,实现了效率与时间的双赢,为算法的实用性奠定了基础。 (3)以改善噪音环境下语音识别和语音可视化系统的鲁棒性为着眼点,把多信号分类法(MUSIC)的谱估计技术引入到特征参数的提取中,并与语音信号的感知特性相结合提出了一种新的语音特征参数PMUSIC-MFCC,同基线参数MFCC相比不但提高了稳健性而且还提高了计算效率。 (4)动态特性是语音多样性的一部分,它不同于平稳的随机过程,它具有时间相关性,揭示了语音信号前后以及相邻之间存在着的密切关联。由于差分参数和加速度参数并不能将动态信息挖掘得很充分,所以它们尚不能很好地反映语音信号的动态特性。而调制谱具有时频集聚性,它不仅可以充分地反映语音之间的动态特性而且对语音环境的敏感度较低。所以根据干扰信号与语音信号在调制信息中不同的反映,提取调制信息中有效的语音成分,然后与MFCC参数的提取方法类似来提取其倒谱特征。这样得到的特征参数鲁棒性更好。 (5)由于人耳对不同的频率在相应的临界带宽内的信号会引起基底膜上不同位置的振动,而小波变换在各分析频段的恒Q(品质因数)特性与人耳听觉对信号的加工特点相一致,所以本文在对MFCC参数提取过程分析的基础上,结合小波包对频带的多层次划分,并根据人耳感知频带的特点,自适应地选择相应频带,提出了一种基于小波包变换的特征参数(WPTC)。经实验验证鲁棒性很好。 (6)鉴于如何在大量的特征参数中选择出少数具有互补作用的特征参数,提出一种系统性的实用的特征参数优化方法—基于方差的正交实验设计法。首先进行因素(语音特征参数)和水平的选择,再根据数理统计与正交性原理,从大量的实验点中挑选适量的具有代表性的点构造正交表进行正交实验,最后通过计算对正交实验结果进行分析,找出最优的特征参数组合。并且与目前参数的简单组合方案相比较,新方法的误识率和响应时间均减少了很多。 (7)基于聋哑人的视觉鉴别能力和对色彩刺激的视觉记忆能力较强的优点,提出了两种可视化方法,一种是基于局部线性嵌入(LLE)和模糊核聚类相结合的方法,先采用本文提出的改进的LLE对特征进行非线性降维,然后再利用模糊核聚类算法对其进行聚类分析,即利用Mercer核,将原始空间通过非线性映射到高维特征空间,在高维特征空间中对语音信号特征进行模糊核聚类分析。由于经过了核函数的映射,使原来没有显现的特征突现出来,从而能够更好地支持基于位置的语音可视化,经过试验验证具有很好的效果。另一种是基于位置和图案的语音信号可视化方法,通过集成不同的语音特征进入一副图像中为聋哑人创造了语音信号的可读模式。首先对语音信号进行一系列预处理,然后提取其特征,其中用三个共振峰特征来映射图像的主颜色信息,声调特征来映射图案信息,再把经过正交实验设计优选后的23个特征送入神经网络2映射出位置信息,最后合成出可视化图像。我们对该可视化系统进行了初步的测试,并与以前的语谱图方法进行了比较,测试结果表明该方法应用在聋哑人辅助学习方面,可以收到良好的效果,具有很好的鲁棒性。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TN912.3

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 李影;徐涛;邢伟;;基于进化遗传算法的神经网络优化[J];长春理工大学学报;2006年03期
2 杨崇林,李雪耀,孙羽;强噪声背景下汉语语音端点检测和音节分割[J];哈尔滨工程大学学报;1997年05期
3 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
4 张文耀,许刚,王裕国;循环AMDF及其语音基音周期估计算法[J];电子学报;2003年06期
5 李祖鹏,姚佩阳;一种语音段起止端点检测新方法[J];电讯技术;2000年03期
6 李桦,安钢,樊新海;短时能频值在语音端点检测中的应用[J];测试技术学报;1999年01期
7 李战明,王贞;基于小波包分析特征参数的说话人识别系统[J];电声技术;2005年06期
8 赵瑞珍,宋国乡;基音检测的小波快速算法[J];电子科技;1998年01期
9 马昕,杜利民,何成林;一种基于调制谱特征的带噪语音识别方法[J];计算机工程与应用;2005年20期
10 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
中国重要会议论文全文数据库 前1条
1 王月;屈百达;李金宝;蒋纯刚;;一种改进的基于频带方差的端点检测算法[A];2007中国控制与决策学术年会论文集[C];2007年
【共引文献】
中国期刊全文数据库 前10条
1 杨兴江;BP算法的程序实现与改进[J];阿坝师范高等专科学校学报;2002年02期
2 张道信,周爱毓;语音信号实时降噪软件的设计[J];安徽大学学报(自然科学版);2004年04期
3 施俊强,池明敏;基于TMS320C54x DSKplus的实时TCM语音编解码算法的实现[J];半导体技术;2001年08期
4 邓勇,施文康;基于TMS320C50的语音频谱分析仪[J];兵工自动化;2000年03期
5 黄新宇,吴淑珍;基于单边自相关线性预测噪声中汉语语音识别[J];北京大学学报(自然科学版);2000年05期
6 刘敬伟,程乾生;基于动态时间规划的基因芯片数据识别[J];北京大学学报(自然科学版);2002年05期
7 段新,黄新宇,吴淑珍;与文本无关的说话人辨认系统中一种新的使用基音周期方法研究[J];北京大学学报(自然科学版);2003年05期
8 王炜,刘峰,吴淑珍;RASTA滤波在语音通信质量客观评价中应用的研究[J];北京大学学报(自然科学版);2003年05期
9 涂承媛,曾衍钧;非线性科学及其在医学中的应用[J];北京工业大学学报;2003年03期
10 何强,毛士艺,张有为;汉语语音识别的平滑声韵基元HMM算法[J];北京航空航天大学学报;2001年02期
中国重要会议论文全文数据库 前10条
1 安镇宙;杨鉴;王红;余映;;一种新的基于分段排序裁剪的分层构筑DTW识别算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
2 杨威明;;基于阈值的小波变换语音增强方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 毛晓梅;蒋冬梅;;基于信息熵的语音端点检测方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
4 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
5 罗珍;董金明;;G.729语音压缩算法的研究与实现[A];全国第二届嵌入式技术联合学术会议论文集[C];2007年
6 范万春;邱宏茂;孙煜;施仁;李真富;;基于自相关函数的地震信号自适应端点检测[A];第十届全国核电子学与核探测技术学术年会论文集[C];2000年
7 闫佩君;陈亮;;基于小波高频分形维数的语音隐藏方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
8 徐俊;蔡莲红;吴志勇;;多语种语音合成平台的设计与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 王月;屈百达;李金宝;蒋纯刚;;一种改进的基于频带方差的端点检测算法[A];2007中国控制与决策学术年会论文集[C];2007年
10 崔志栋;李英;陶泯;;一种改进的基于熵和能量的语音端点检测算法[A];2007中国控制与决策学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张道强;基于核的联想记忆及聚类算法的研究与应用[D];南京航空航天大学;2005年
2 潘志松;基于神经网络的入侵检测研究[D];南京航空航天大学;2003年
3 田斌;实用化汉语语音识别理论及关键技术研究[D];西安电子科技大学;1999年
4 付强;语音的参数表示和质量客观评价研究[D];西安电子科技大学;2000年
5 姚峰英;语音增强系统的研究与实现[D];中国科学院上海冶金研究所;2001年
6 钟金宏;基于音节的汉语连续语音声调识别方法研究[D];合肥工业大学;2001年
7 屈汉章;连续小波变换及其应用[D];西安电子科技大学;2001年
8 赵瑞珍;小波理论及其在图像、信号处理中的算法研究[D];西安电子科技大学;2001年
9 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
10 张文耀;基于匹配跟踪的低位率语音编码研究[D];中国科学院研究生院(软件研究所);2002年
中国硕士学位论文全文数据库 前10条
1 张昭涛;数据挖掘聚类算法研究[D];西南交通大学;2005年
2 余浩;说话人识别的自适应算法研究[D];武汉理工大学;2005年
3 钱昱;数据挖掘在入侵检测中的应用研究[D];安徽大学;2004年
4 张晓旻;基于语音识别的音频多媒体会议记录系统的研究[D];河北工业大学;2000年
5 刘兴立;任意文本的说话人识别系统研究[D];大连理工大学;2000年
6 王佳庆;通用机器人单片机控制器[D];苏州大学;2001年
7 周德俊;基于CELP的低速率语音编解码器及其AMR技术研究[D];电子科技大学;2001年
8 黎照明;软件无线电中几项DSP实现技术的研究[D];电子科技大学;2001年
9 陈文;AMR声码器自适应码本搜索技术及其DSP实现[D];电子科技大学;2001年
10 盛青;语音自动识别技术(ASR)及其软件实时实现[D];西北工业大学;2001年
【同被引文献】
中国期刊全文数据库 前3条
1 杨阳;陈永明;;声纹识别技术及其应用[J];电声技术;2007年02期
2 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
3 季虎,夏胜平,郁文贤;快速傅立叶变换算法概述[J];现代电子技术;2001年08期
中国硕士学位论文全文数据库 前2条
1 王炜;文本无关的连续自然语音的说话人识别及基于DSP的实现[D];解放军信息工程大学;2004年
2 张振领;基于支持向量机和小波分析的说话人识别技术研究[D];武汉理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 彭咏梅,徐秀,刘湘云;听力障碍儿童智商发育影响因素和对策研究[J];中国儿童保健杂志;1995年01期
2 叶德谦,康建红,杨樱;实数编码遗传算法的前向神经网络优化设计[J];计算机工程;2005年16期
3 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
4 陈哲,冯天瑾,陈刚;一种基于BP算法学习的小波神经网络[J];青岛海洋大学学报(自然科学版);2001年01期
5 何致远,胡起秀,徐光祐;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期
6 何振亚,顾明亮,王太君,史笑兴;基于HMM与RBF的混合语音识别新方法[J];数据采集与处理;1999年02期
7 李公正,于之坤,刘灵;聋童视知觉发育测试分析[J];西安医科大学学报(中文版);1996年02期
8 伍忠东,高新波,谢维信;基于核方法的模糊聚类算法[J];西安电子科技大学学报;2004年04期
9 张家騄;论语音技术的发展[J];声学学报(中文版);2004年03期
10 赵美荣,陈卫,花桂莲;聋哑儿童学习能力分析[J];中国学校卫生;1998年04期
【相似文献】
中国期刊全文数据库 前10条
1 聂惠娟;段世政;;语音信号端点检测方法研究[J];新乡师范高等专科学校学报;2007年02期
2 覃溪;钟明辉;曹乃文;黄汉明;;基于ICA增强和谱熵的语音端点检测方法[J];电声技术;2006年10期
3 曹梅双;曾庆宁;陈芙蓉;;基于子带能量的语音端点检测方法研究[J];大众科技;2009年02期
4 韩立华;王博;段淑凤;;语音端点检测技术研究进展[J];计算机应用研究;2010年04期
5 郑展恒;曾庆宁;张少兵;;一种语音端点检测方法的研究[J];桂林电子科技大学学报;2008年01期
6 沈红丽;曾毓敏;王鹏;;一种改进的基于倒谱特征的带噪语音端点检测方法[J];通信技术;2009年02期
7 李明;;时频结合的带噪语音端点检测方法[J];科技资讯;2011年10期
8 韩清华;于洪志;;基于HMM的安多藏语非特定人孤立词语音识别研究[J];软件导刊;2010年07期
9 张振红;张雪英;;基于分形维数和模糊RBF神经网络的语音端点检测[J];电脑开发与应用;2008年07期
10 李晋;刘甫;王玲;许慧燕;;改进的语音端点检测技术[J];计算机工程与应用;2009年24期
中国重要会议论文全文数据库 前10条
1 宾建华;窦新英;;乌鲁木齐地区层状云降雨雷达回波特征[A];中国气象学会2007年年会人工影响天气科技进展与应用分会场论文集[C];2007年
2 刘立成;姜汉桥;刘同敬;吴霞;孙立旭;;一种解释注蒸汽井井间强汽窜的新方法[A];第九届全国渗流力学学术讨论会论文集(二)[C];2007年
3 秦国梁;林尚扬;;Nd:YAG CW激光深熔焊接过程中小孔的特征[A];第十一次全国焊接会议论文集(第1册)[C];2005年
4 孙锐;朱平;王志敏;丛艳霞;勾玲;方立锋;赵明;;春玉米叶面积系数动态特征参数及其与产量关系[A];2008中国作物学会学术年会论文摘要集[C];2008年
5 刘代志;邹红星;苏娟;赵克;;核爆地震模式识别中的分形分析[A];1996年中国地球物理学会第十二届学术年会论文集[C];1996年
6 汪久根;程兆谦;;摩擦润滑耦合自组织特征参数分析[A];第六届全国摩擦学学术会议论文集(上册)[C];1997年
7 刘林;林涛;;基于连续小波变换和专家系统的电能质量扰动识别研究[A];中南七省(区)电力系统专业委员会第二十二届联合学术年会论文集[C];2007年
8 吴军基;孔凡坊;李国峰;叶学勇;陆朱卫;王虎;;基于分层模糊推理的快速综合故障选相新算法[A];2008中国电力系统保护与控制学术研讨会论文集[C];2008年
9 郑丽敏;闫鹏程;朱虹;吴平;芦筱菲;黄品文;贾宗艳;白福铭;任发政;;电子鼻特征参数优化与识别比较[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
10 李曼曼;杨鸿武;洪宁;杨硕;刘亚丽;;基于EMD的带噪语音端点检测[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国重要报纸全文数据库 前10条
1 任效良;科大科研成果填补国际空白[N];北方经济时报;2007年
2 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
3 崔丹丹 蔡莲红;情感语音的分析与转换[N];计算机世界;2007年
4 本报记者 左卫东;“大石峡项目”建设进入论证阶段[N];阿克苏日报;2006年
5 田毅王羚 卢瑶;四个步骤获得“隐秘数据”[N];第一财经日报;2007年
6 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
7 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
8 陈秀海王雪松;北京公司雷电定位系统试运行[N];国家电网报;2008年
9 记者 刘永;MEMS尚需突破封装技术瓶颈[N];电子资讯时报;2008年
10 本报记者 李小兵;框架传媒公布“圈地标准”[N];上海证券报;2008年
中国博士学位论文全文数据库 前10条
1 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年
2 包永强;噪声环境下说话人识别的研究[D];东南大学;2006年
3 马龙华;车载环境下语音识别方法研究[D];哈尔滨工程大学;2008年
4 田毅;电动汽车运行状态识别及HEV控制策略研究[D];北京交通大学;2010年
5 龙潜;噪声环境下的语音识别技术研究[D];中国科学技术大学;2007年
6 李耀华;静电感应技术在航空发动机气路状态监测上的应用研究[D];南京航空航天大学;2011年
7 王玥;说话人识别中语音特征参数提取方法的研究[D];吉林大学;2009年
8 赵欢;面向嵌入式计算平台的自动语音识别关键技术研究[D];湖南大学;2010年
9 王秀华;木材横切面构造特征计算机视觉分析与树种分类识别研究[D];东北林业大学;2005年
10 盛有明;微循环及心肌细胞显微图像特征参数动态测量技术及应用研究[D];北京协和医学院;2011年
中国硕士学位论文全文数据库 前10条
1 赵彦平;孤立词小词汇量抗噪声语音识别方法的研究[D];吉林大学;2006年
2 惠博;语音识别特征提取算法的研究及实现[D];西北大学;2008年
3 赵彦敏;一种基于HMM和WNN混合模型的语音识别方法[D];兰州理工大学;2008年
4 蔡妍;语音信号端点检测方法的研究[D];江南大学;2008年
5 王秀丽;说话人识别系统中特征提取和端点检测算法研究及系统的DSP实现[D];吉林大学;2006年
6 罗俊光;基于DSP的嵌入式非特定人孤立词语音识别系统的研究与设计[D];广东工业大学;2007年
7 阳国清;连续语音流中咳嗽信号的识别[D];华南理工大学;2010年
8 陈晓霖;基于隐马尔可夫模型的语音识别方法的研究[D];山东大学;2005年
9 魏艳娜;语音识别的矢量量化技术研究[D];河北工程大学;2007年
10 孙海英;基于倒谱特征和浊音特性的语音端点检测方法的研究[D];青岛科技大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026