收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

声学模型区分性训练及其在自动语音识别中的应用

鄢志杰  
【摘要】: 声学模型区分性训练已经成为当今主流语音识别系统中最重要的模型训练手段之一。与此同时,对区分性训练准则、模型优化算法以及应用性方法的研究,也日益引起越来越多研究者的重视。在这一背景下,本文围绕声学模型区分性训练及其在自动语音识别中的应用,进行了较系统而深入的研究。并且在准则、优化与应用三个方面都有一定的创新。 首先,本文提出了一种新的区分性训练准则,即最小词分类错误MWCE准则。通过将传统基于句子级的MCE损失代价函数细化到词一级,MWCE准则尝试估计并最小化一个更直接的词级分类错误度量。由于这一词级错误度量更能够匹配大词汇量连续语音识别的目标,即降低词错误率,因此也就能够取得比句子级训练准则更好的识别性能。与其它的一些次句级区分性训练准则(如MWE、MPE)相比,MWCE准则提供了对词级错误的一个全新角度的表达,并在我们的实验中取得了更优的识别性能。这显示从训练准则上继续寻找物理意义更为明确合理的目标来进行优化,仍具有重要的意义。 其次,本文提出了一种新的区分性训练模型参数更新算法,即MMIE准则基于Trust Region的模型参数更新。通过在参数更新过程中引入Trust Region约束,我们使用一种在数学上更为合理、物理意义上更为明确的方式来避免传统EB方法中无界优化问题的一些局限。同时,由于在每次迭代优化中我们都可以得到辅助函数在约束条件下的全局最优解,因此对准则更新的效率也就更高。实验证明,MMIE准则基于Trust Region的模型参数更新在准则优化与识别性能提升两方面都超过了传统的EB模型参数更新方法。 第三,本文提出了对软分类边缘估计SME的一些完善和改进方法。通过将区分性训练领域近年来的一些重要技术引入,我们首次实现了句子级SME估计在大词汇量连续语音识别中的成功应用。接着,我们进一步提出SME估计下的帧级区分性训练方法,通过定义合理的分割度量,在帧尺度上对包含重要区分性信息的训练样本进行筛选。我们在实验中对比了传统MCE准则、句子级SME估计,以及帧级SME估计的性能。结果表明,由于引入了Soft Margin的概念,两种SME估计都能够取得超越MCE准则的性能。而我们提出的帧级SME估计在引入抑制噪声样本的参数后可以取得最好的、明显超过传统MCE准则的识别性能。 最后,本文提出了一种区分性训练的应用性方法,即基于MMIE准则的HMM模型拓扑结构优化方法。我们根据MMIE准则定义出指导模型结构优化的启发性度量,尝试在各个HMM状态间“交换”高斯核以实现各状态混合高斯成份数目的非均匀分配。此外,还对高斯核交换完成后的特定HMM状态进行时间尺度上的拓扑结构后处理。通过以上这些步骤,我们将模型结构的优化与模型区分性的提高更直接的联系了起来。因此,基于区分性准则的模型拓扑结构优化方法在实验中能够在性能上超过传统的、基于似然度的其它模型结构优化方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 俞铁城;语音识别的发展现状[J];通讯世界;2005年02期
2 张戈;严欢;殷景华;;基于HTK调用MatLab的语音识别的研究[J];现代计算机(专业版);2010年09期
3 张明新;张东滨;倪宏;;用于噪声鲁棒语音识别的声学模型及解码策略[J];电声技术;2006年06期
4 刘聪;胡郁;戴礼荣;王仁华;;一种针对区分性训练的受限线性搜索优化方法[J];模式识别与人工智能;2010年04期
5 鄢志杰;胡郁;王仁华;;一种基于区分性准则的模型结构优化方法[J];中文信息学报;2008年02期
6 祁均;梁维谦;;区分性训练算法在英语语音评测中的应用[J];电声技术;2011年08期
7 宋寅;梁维谦;;区分性模型在英语自动发音评测中的应用[J];清华大学学报(自然科学版);2010年04期
8 黄浩;朱杰;;汉语语音识别中区分性声调模型及最优集成方法(英文)[J];Journal of Southeast University;2007年02期
9 赖珉;陈一宁;初敏;胡访宇;;训练数据有限的英文语音重音标注研究[J];计算机工程与应用;2007年33期
10 吴娅辉;刘刚;郭军;;基于模型混淆度的模型组合算法研究[J];自动化学报;2009年05期
11 俞铁城;适用于自动语音识别的声道参数[J];物理;1998年02期
12 杜利民;;生物特征识别技术之语音识别[J];中国自动识别技术;2007年03期
13 杜利民;侯自强;;自动语音识别研究的人工神经网络方法[J];物理学进展;1996年Z1期
14 迟惠生,吴玺宏;听觉计算模型在自动语音识别中的作用[J];自然科学进展;2000年11期
15 谭保华,熊健民,刘幺和;语音识别技术概述[J];郧阳师范高等专科学校学报;2004年06期
16 梁烽;;应用自动语音识别技术实现通信增值业务[J];广西科学院学报;2005年04期
17 鲍豫鸿;曹忠;;浅谈语音处理技术[J];电脑知识与技术(学术交流);2007年12期
18 张峰;黄超;戴礼荣;;普通话发音错误自动检测技术[J];中文信息学报;2010年02期
19 Stephen Kempainen;;自动语音识别:要让机器能听清又能听懂[J];电子设计技术;1998年01期
20 谭保华,熊健民,刘幺和;基于语音识别的IVR系统设计[J];数据通信;2005年01期
中国重要会议论文全文数据库 前10条
1 张红;黄泰翼;;通向现实世界之路——基于自动语音识别系统的广播电视新闻自动记录系统[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
2 张超;刘轶;郑方;;面向多口音语音识别的声学模型重构[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
3 张超;刘轶;郑方;;面向多口音语音识别的声学模型重构方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 陶建华;康永国;;基于多元激励的高质量语音合成声学模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 梁烽;;应用自动语音识别技术实现通信增值业务[A];广西计算机学会2005年学术年会论文集[C];2005年
6 聂明新;王金昊;;DSP技术在手机语音识别中的应用[A];第九届全国青年通信学术会议论文集[C];2004年
7 颜龙;刘刚;郭军;;汉语大词汇连续语音识别系统的研究[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 宁振江;杜利民;;面向语音识别声学模型的汉语语料抽选方法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年
9 焦洋;董远;董乘宇;王海拉;;基于子词加权得分的言语信息验证系统[A];第九届全国人机语音通讯学术会议论文集[C];2007年
10 钟荣;孙玉东;;管道离心泵的单端口声学模型试验研究[A];第十一届船舶水下噪声学术讨论会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 鄢志杰;声学模型区分性训练及其在自动语音识别中的应用[D];中国科学技术大学;2008年
2 胡郁;语音识别中基于模型补偿的噪声鲁棒性问题研究[D];中国科学技术大学;2009年
3 张峰;基于统计模式识别发音错误自动检测的研究[D];中国科学技术大学;2009年
4 杜俊;自动语音识别中的噪声鲁棒性方法[D];中国科学技术大学;2009年
5 刘聪;声学模型区分性训练及其在LVCSR系统的应用[D];中国科学技术大学;2010年
6 黄浩;基于区分性原理的汉语语音识别中声调问题的研究[D];上海交通大学;2008年
7 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年
8 严可;发音质量自动评测技术研究[D];中国科学技术大学;2012年
9 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
10 崔志文;多孔介质声学模型与多极源声电效应测井和多极随钻声测井的理论与数值研究[D];吉林大学;2004年
中国硕士学位论文全文数据库 前10条
1 竺博;区分性训练和区分性自适应在自动语音识别声学模型优化中的应用[D];中国科学技术大学;2009年
2 杨钊;基于特征补偿的自动语音识别的研究[D];中国科学技术大学;2010年
3 李昊洋;语音识别中基于支持向量机的声学模型分析与实现[D];吉林大学;2010年
4 谢磊;连续语音识别中声学模型的建立[D];西北工业大学;2002年
5 王佑才;基于语音的应用程序的开发[D];武汉科技大学;2005年
6 李海洋;基于词片和Lattice的汉语语音检索技术研究[D];哈尔滨工业大学;2007年
7 付强;基于高斯混合模型的语种识别的研究[D];中国科学技术大学;2009年
8 阮兆文;基于声学模型和小波变换的语音增强方法研究[D];中国科学技术大学;2009年
9 马萧;汉语连续语音识别及其在移动机器人导航中的应用[D];西安理工大学;2007年
10 吴华玉;基于ASR的呼叫中心实现及客户分类研究[D];大连理工大学;2008年
中国重要报纸全文数据库 前10条
1 焦敏 编译;自动语音识别决定呼叫中心的未来[N];中国计算机报;2009年
2 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
3 中国科学院声学研究所研究员 俞铁城;解析语音识别的发展现状[N];通信产业报;2004年
4 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
5 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
6 本报记者 陈磊;2008奥运,实现语言交流无障碍[N];科技日报;2006年
7 吴迪新本报记者 吴穹;电话寻厕难解内急[N];计算机世界;2007年
8 魏衍亮;奥运IT技术领域的专利部署[N];中国知识产权报;2008年
9 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
10 王俊杰;TTS助力CIC[N];中国信息报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978