收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于区分性原理的汉语语音识别中声调问题的研究

黄浩  
【摘要】: 汉语是一种带调语言,声调在汉语语音中具有非常重要的意义。相同的声母和韵母构成的音节随声调的不同而具有完全不同的意义,对应着不同的方块字。特别是当语言模型上下文缺失的情况下,声调在汉语普通话中承担着重要的构字辨义的作用。因此,将声调信息应用于汉语普通话的语音识别系统当中,将会有效地提高识别系统的性能。近年来,基于区分性原理的机器学习方法已成为模式识别特别是自动语音识别研究领域的热门研究方向之一。利用区分性原理在模型训练以及特征优化方面提出的一些方法,在小规模的分类任务以及大词汇连续语音识别系统中都显示了优越的性能。 本文以汉语普通话大词汇连续语音识别系统为应用背景,旨在根据汉语声调发音的特点,从区分性原理的角度来讨论汉语语音的声调建模以及声学建模中的声调信息利用问题。回顾了语音识别技术的发展历史,介绍了声调在汉语语音识别中的作用,系统性描述了区分性训练准则以及应用比较成功的区分性模型与方法,并由此提出了不同模型下改进声调识别性能以及利用声调信息改进声学建模性能的区分性方法,为汉语语音识别中声调问题的解决提供了新的研究思路。这些方法可概括如下: 首先从区分性训练的角度研究了基于隐马尔可夫模型的声调建模方法。为了提高汉语声调识别率,从模型空间中利用区分性训练的参数更新方法对模型参数进行重估。在汉语普通话中,由于协同发音的存在,连续语音的声调识别较孤立语音声调识别复杂。声调协同发音体现为对当前音节的声调感知高度依赖于上下文声调。基于上述原理,在特征空间的区分性训练方面,提出区分性声调特征提取方法。该方法根据区分性线性特征补偿的思想,根据区分性目标函数训练得到的线性变换,将上下文基音频率进行映射并补偿至当前音节基音频率特征。实验表明区分性声调特征提取显著提高了声调识别率,声调特征提取基础上的模型参数联合训练进一步提高了声调识别的性能。并从识别率以及特征变换参数的角度进行分析,说明特征提取方法与传统声调特征归一化的本质不同。 条件随机场(conditional random fields,CRFs)是近年来在自然语言处理领域使用的成功的数学模型。论文采用条件随机场的一种扩展-隐条件随机场对汉语语音声调进行显式建模,提出一种对传统动态特征的扩展-广义动态特征来更好地捕捉基音频率曲线的动态变化。声调识别实验表明采用相同的特征和结构,隐条件随机场较最大似然训练的隐马尔可夫模型声调识别率有显著提高,加入广义动态特征之后声调识别率有一致性改进。隐条件随机场区别于HMM的重要特性在于无须对特征采用统一的利用方式,这使得该模型非常适合于处理汉语语音中基音频率在浊音段连续、清音段不连续的声学现象。提出了隐条件随机场对断续F_0进行直接建模的隐式声调建模方法,带调音节分类实验表明在隐条件随机场下对断续基音频率序列的直接建模较使用清音段平滑F_0特征的识别率有明显的提高,该实验结果对利用隐条件随机场在大词汇连续语音识别系统下,声学建模中对断续基音频率序列的直接建模提供初步的实验依据。 讨论了大间隔(large margin)高斯混合模型的声调建模方法,根据大间隔区分性训练准则对模型参数进行区分性训练。对于参数的更新,针对基于Quasi-Newton梯度下降方法收敛速度慢的缺点,提出一种扩展Baum Welch(extended Baum Welch,EBW)形式的大间隔高斯混合模型的参数更新方法,该方法借助弱辅助函数的原理对高斯参数进行优化,实验表明该方法与基于Quasi-Newton的梯度方法相比只需要几次迭代就可以达到相同甚至更高的识别结果。另一方面,对于基于段特征的高斯混合模型,选取什么样的特征能够达到更好的识别率往往需要反复试凑得到最优的识别结果。本文利用线性判别分析方法来对声调特征进行降维,通过线性判别分析得到更加适合于声调区分的段特征,声调识别实验上表明在维数缩减特征基础上的高斯混合声调模型,较传统的重叠双音调高斯混合模型在声调识别性能方面有明显的提高,这表明线性判别分析获得的特征要优于人工选取的超音段声调特征。 最后讨论了一种区分性模型权重的训练方法,将显式训练的声调模型加入大词汇量连续语音识别系统中来提高汉语连续语音识别率。该方法根据最小音子错误(minimumphone error,MPE)准则,区分性地训练模型相关的概率权重。利用这些权重对传统基于传统谱特征的HMM模型概率以及声调模型概率进行加权,通过调整模型之间的作用程度提高系统识别率。推导了利用扩展Baum-Welch算法的权重更新公式。根据汉语上下文相关声学建模的特点,由此提出了带调音节相关、韵母模型相关、模型组合相关和整词相关的模型权重策略。对不同模型权重组合策略进行了评估。在实验中,由于训练语料的有限性,各种权重策略随着可训练参数增多,容易受到过训练的影响。具体表现在:对训练数据目标函数增大,但是测试数据识别率反而下降。提出利用权重之间的平滑的方法来克服权重训练过拟合的问题。分别通过大词汇连续语音的带调音节输出和汉字输出两种识别任务来验证区分性模型权重训练的性能。实验结果表明在两种识别任务上,使用区分性的模型权重较使用全局模型权重显著地降低了误识率,这表明了区分性模型权重对提高声调模型集成性能的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李岩;;语音识别:芝麻开门不是梦[J];电脑爱好者;2006年08期
2 方棣棠;;汉语语音识别的现状与展望[J];中文信息;1996年02期
3 商周;百家争“鸣”——1998汉语语音识别技术回顾[J];中国计算机用户;1999年07期
4 张宜;汉语语音识别技术的研究与发展[J];广西广播电视大学学报;2003年04期
5 ;中国中文信息学会基础理论专业委员会全国第三届汉字及汉语语音识别学术会议记要[J];中文信息学报;1989年04期
6 一清;;语音识别:以应用为王[J];互联网周刊;1999年23期
7 黄顺珍;;汉语语音识别研究与实践[J];深圳大学学报(理工版);1987年Z2期
8 赵力;邹采荣;吴镇扬;;基于MQDF的汉语塞音语音识别方法的研究[J];模式识别与人工智能;2000年03期
9 黄浩;朱杰;;汉语语音识别中区分性声调模型及最优集成方法(英文)[J];Journal of Southeast University;2007年02期
10 柴佩琪;汉语语音识别中的LPC格型法提取声调[J];计算机应用与软件;1984年02期
11 林建臻,孙甲松,王作英;汉语语音识别的抗噪性前端算法及性能分析[J];电声技术;2004年03期
12 张琰彬;呼月宁;初敏;黄超;梁满贵;;汉语普通话声调发音错误检测[J];清华大学学报(自然科学版);2008年S1期
13 黄浩;哈力旦;;汉语语音识别中基频特征的直接声学建模方法[J];计算机工程与应用;2009年30期
14 ;语音识别技术[J];锚杆支护;2001年03期
15 一清;;谁“语”争锋?——看国内汉语语音识别市场[J];每周电脑报;1998年50期
16 钟晓,周昌乐,俞瑞钊;一种面向汉语语音识别的口形形状识别方法[J];软件学报;1999年02期
17 吴应良,韦岗,李海洲;基于字统计语言模型的汉语语音识别研究[J];计算机应用研究;2000年05期
18 黄寅飞,吴文虎;汉语语音识别技术综述[J];中国计算机用户;2000年11期
19 张涛,郜彦华;汉语数码语音识别中一种新的抗噪声特征参数[J];河南科技大学学报(自然科学版);2005年03期
20 苏广川;强噪声环境下汉语语音识别的模糊分类算法[J];北京理工大学学报;1997年06期
中国重要会议论文全文数据库 前10条
1 杨丹宇;胡起秀;葛余博;;对分段时变的隐式马尔可夫模型应用于汉语语音识别的研究[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
2 方棣棠;李树青;;汉语语音识别的技术研究与产品开发[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
3 任晓林;何昕;孙放;张亚昕;;Voper:一个嵌入式汉语语音识别系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 王霞;董远;JuhaIso-Sipil;;高维倒谱参数在抗噪声汉语语音识别中的应用[A];第六届全国人机语音通讯学术会议论文集[C];2001年
5 刘增寿;朱东升;;一个实时汉语语音识别新算法SSVQ/DTW[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杨丹宇;;应用于非特定人孤立词小字表汉语语音识别中的新的隐式概率模型[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 肖熙;王作英;;神经网预测器在汉语语音识别中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 谢春光;葛余博;杜神甫;娄军;;非特定人汉语语音识别中的几个非时齐隐Markov模型[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
9 温建平;王作英;;利用辅音信息提高汉语语音识别率的两种方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年
10 王仁华;倪晋富;;语音识别系统评估初探[A];第二届全国人机语音通讯学术会议论文集[C];1992年
中国博士学位论文全文数据库 前2条
1 黄浩;基于区分性原理的汉语语音识别中声调问题的研究[D];上海交通大学;2008年
2 王欢良;基于混淆网络和辅助信息的语音识别技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 王鹏;调型信息在汉语语音识别中的应用研究[D];中国科学技术大学;2010年
2 辜少鹏;汉语语言的物理特征提取及分析工具的研究与实现[D];东华大学;2011年
3 周珺;在汉语语音识别中语速、音量和音调调整的研究[D];西安电子科技大学;2002年
4 侯媛媛;基于摩尔斯码的声韵母汉语语音识别皮肤听声器的研究[D];陕西科技大学;2012年
5 王忠文;基于ARM-Linux的抗噪声语音识别技术研究[D];广东工业大学;2008年
6 强晟;声调信息在中文语音识别系统中的应用研究[D];浙江大学;2007年
7 唐平;基于特定人的汉语语音识别的研究与实现[D];西安电子科技大学;2009年
8 金玮;汉语语音识别中语言模型的并行优化[D];清华大学;2010年
9 王艳;噪声环境下汉语连续语音识别技术研究[D];西北大学;2010年
10 王韵;基于Sphinx的汉语连续语音识别[D];太原理工大学;2010年
中国重要报纸全文数据库 前10条
1 郭雅圆;自主研发技术谁也不能替代[N];中国乡镇企业报;2005年
2 俞东升;大恒笔2000技巧几则[N];计算机世界;2000年
3 何渝;计算机教育应体现民族文化[N];光明日报;2003年
4 记者 杨晓平;研发中心热战中国[N];中华工商时报;2001年
5 牛建国;WTO下的跨国公司发展态势[N];中国企业报;2002年
6 中国工程院院士、中科院计算技术研究所所长、曙光信息产业有限公司董事长 李国杰;关于发展我国计算机高技术产业的思索[N];科技日报;2000年
7 记者 姚传富;智能语音产业呼之欲出[N];人民邮电;2002年
8 一泓 晓月 海宁;产品新干线[N];金融时报;2000年
9 记者 爱民;语音合成技术我国达到国际领先水平[N];中国电子报;2001年
10 本报记者 张 洪;让机器成为人[N];大众科技报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978