收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

音频噪声环境下唇动信息在语音识别中的应用技术研究

奉小慧  
【摘要】:传统语音识别研究只利用声学语音信息,而音视频双模态语音识别将说话人的唇动信息和声学语音信息一起作为特征参数,共同完成语音识别,为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径。本文着重研究音视频语音识别中视频图像的前端处理、视频特征提取、音视频信息融合等实际应用问题。本文主要工作如下: 1)建立了一个针对车载控制系统的中文句子级双模态语音数据库(BiModal Speech Database, BiMoSp),由26人(14男12女)的数据构成。经过对多个驾驶员进行问卷调查后归纳出68条最常用的车载设备控制指令作为语料,每个说话人为每个控制语句提供4个音视频语音样本。 2)提出一种基于多色彩空间的嘴唇区域定位算法。该算法将RGB空间的彩色边缘检测结果、HSV空间的色调以及饱和度分量相结合,并根据嘴唇的位置特性,对嘴唇区域的基准线进行调整,然后通过投影确定嘴唇边界点的位置,最后在二值图像中完成嘴唇区域定位。为了提高视频图像处理的鲁棒性,在实验中还引用其他数据库的部分图像,实验定位的准确率为98.25%,相对利用PCA的定位算法,准确率提高了3.37%。 3)以提高轮廓提取精度和速度为目标,提出了一种利用多方向梯度信息和基于先验知识的改进几何活动轮廓(GAC)模型。将多方向梯度信息和嘴形椭圆形状的先验知识(Prior Shape)结合起来引入到Level Set的能量函数中,避免了传统GAC模型在嘴形轮廓提取中的不足。相比传统的GAC,该模型使嘴唇轮廓提取实验的准确率提高了8.38%。 4)提出了一种基于帧间距离和线性判别投影变换(LDA)的动态特征提取方法。该方法弥补了差分特征的缺陷。利用该方法得到的特征不仅嵌入了语音分类的先验知识,而且捕捉了视觉特征的纹理变化信息。实验结果表明,由DTCWT变化而来的静态特征经过帧间距离运算,识别错误率相对降低了3.25%。而该静态特征经过LDA变换之后识别错误率相对降低了6.50%。LDA变化后的特征和一阶、二阶差分特征结合之后,相对静态特征,又可使识别错误率分别降低了9.44%和15.43%。将帧间距离和LDA差分得到最终的动态特征,其识别错误率相对静态特征降低了20.12%。 5)提出了一种双训练模型来改善音视频特征融合的识别效果。从训练数据和测试数据不匹配而带来的噪声影响考虑,在不影响识别速度的前提下,使用噪声模型和基准模型来共同完成音视频特征融合语音识别。对在噪声环境下的基于英语音视频数据库(AMP-AVSp)和中文音视频双模态语音数据库(BiMoSp)的实验结果表明,使用双训练模型在高噪声情况下识别性能得到了很大地提高。对于AMP-AVSp和BiMoSp,在SNR=-5dB时,比仅使用基准模型识别的错误率分别降低了45.27%和37.24%。 6)提出一种基于整数线性规划(Integer Linear Programming,ILP)的最优流指数选取的决策融合方法。根据决策融合中的似然概率线性相加特性,利用提出的最大对数似然距离(Maximum Log-Likelihood Distance,MLLD)为准则,建立了流指数选取模型。在实验中用梯度值为0.05的穷举搜索法选取的流指数做参考。实验结果表明,两种方法得到的流权值和音视频语音识别结果都很接近。因为穷举搜索法往往都能得到模型的最优解,两个模型实验结果的近似也反映了ILP模型能够为音视频决策融合选取出最优数据流指数以达到最佳识别效果。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘鹏,田野,王作英;基于DCOM的分布式电话语音识别系统[J];计算机工程与应用;2002年14期
2 刘鹏,王作英;多模式语音端点检测[J];清华大学学报(自然科学版);2005年07期
3 程庆祥;;语音识别电路简介[J];家电科技;1990年02期
4 张连海,韩华,王炳锡;过零周期转移概率矩阵语音识别方法的改进[J];信息工程学院学报;1994年01期
5 闫守华;语音控制系统的研制[J];成都气象学院学报;1997年03期
6 李晓霞,王东木,李雪耀;语音识别技术评述[J];计算机应用研究;1999年10期
7 李虎生,刘加,刘润生;利用多层感知机映射提高不匹配环境下的语音识别性能[J];电路与系统学报;1999年04期
8 陈海英,于金辉;利用语音识别进行信息检索[J];情报学报;2003年01期
9 刘占军;;我的Word更“听话”[J];电脑知识与技术(经验技巧);2010年10期
10 赵显富;;译者的话[J];计算技术与自动化;1985年04期
11 张忠平;文成义;;基于BP神经网络的汉语语音识别的研究[J];电声技术;1992年09期
12 战普明,王作英,陆大 ;语音识别隐马尔可夫模型的改进[J];电子学报;1994年01期
13 戎月莉;语音识别的二值化时频图型模糊匹配法[J];应用声学;1994年05期
14 姚萝姑;有限词汇、特定人、商品化的英语语音识别系统[J];上海交通大学学报;1996年06期
15 David Haskin ,贾树山;DragonDictate使语音识别迈上新台阶[J];个人电脑;1996年09期
16 吴少军 ,张维平 ,沈永福;新型语音识别电路AP7003及其应用[J];电子技术应用;2001年07期
17 徐金甫,韦岗,梁树雄;一种基于奇异值分解的带噪语音识别方法[J];华南理工大学学报(自然科学版);2001年01期
18 刘芝;;语音识控 走向应用[J];科技潮;2001年07期
19 张会清,于洪珍;语音识别及自组织映射神经网络的应用[J];计算机工程与应用;2002年19期
20 唐昌文;一种孤立字语音识别的新方法[J];通信技术;2002年08期
中国重要会议论文全文数据库 前10条
1 计天颖;王作英;陆大金;;有限命令集连续语音识别[A];第三届全国人机语音通讯学术会议论文集[C];1994年
2 余鹏;王作英;;语音识别码本状态间的线性和非线性相关性[A];第六届全国人机语音通讯学术会议论文集[C];2001年
3 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 靳慧龙;;基于DSP的电视语音拨号遥控技术[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
5 张超;刘轶;郑方;;面向多口音语音识别的声学模型重构[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
6 张超;刘轶;郑方;;面向多口音语音识别的声学模型重构方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 马晓川;刘冬;赵荣椿;;孤立短语隐马尔可夫模型自动建模软件的实现[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 郭晨;;汉语语音技术[A];第一届学生计算语言学研讨会论文集[C];2002年
9 赵海滨;王宏;闻绍飞;;嵌入式语音识别控制机械手的系统设计[A];第二届全国信息获取与处理学术会议论文集[C];2004年
10 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国重要报纸全文数据库 前10条
1 中国科学院声学研究所研究员 俞铁城;解析语音识别的发展现状[N];通信产业报;2004年
2 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
3 本报记者 刘学习;认准语音识别的“内核”[N];计算机世界;2002年
4 ;“超人类语音识别”计划[N];中国计算机报;2002年
5 ;Intel涉足语音识别[N];计算机世界;2003年
6 本报记者 艾文;语音识别:IBM继续领跑[N];中国计算机报;2001年
7 小雷;芝麻开门[N];电脑商报;2006年
8 记者 潘治;汽车真能听话[N];新华每日电讯;2002年
9 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
10 本报记者 钟洪奇;Pattek语音识别产品: 找一条走得通的路[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
2 刘纪平;多重演化神经网络在语音识别中的应用[D];武汉大学;2011年
3 孙颖;情感语音识别与合成的研究[D];太原理工大学;2011年
4 李伟;基于内容的汉语语音检索技术研究与系统实现[D];清华大学;2011年
5 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
6 丁沛;语音识别中的抗噪声技术[D];清华大学;2003年
7 刘庆升;计算机辅助普通话发音评测关键技术研究[D];中国科学技术大学;2010年
8 田斌;实用化汉语语音识别理论及关键技术研究[D];西安电子科技大学;1999年
9 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
10 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年
中国硕士学位论文全文数据库 前10条
1 王霅煜;基于VQ和ASR的多媒体课件检索[D];上海交通大学;2010年
2 郭恒飞;基于非特定人车载电器语音集成控制系统的设计与实现[D];合肥工业大学;2011年
3 王秋杰;TD-SCDMA网络测试软件中语音识别模块的设计与实现[D];北京邮电大学;2011年
4 彭峰;基于SALT的交互式语音应答系统——SALT技术的分析与应用[D];四川大学;2004年
5 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
6 朱晗鸣;嵌入式小词汇量语音识别系统的设计与实现[D];大连理工大学;2005年
7 龙丽霞;基于实例语境的语音识别后文本检错与纠错研究[D];北京邮电大学;2010年
8 宋叔飚;神经网络在语音识别中的应用研究[D];西北工业大学;2002年
9 庞雄昌;语音识别及其定点DSP实现[D];西安电子科技大学;2004年
10 熊飞丽;语音识别技术在语言教学软件中的应用研究[D];国防科学技术大学;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978