连续语音识别特征提取与声学模型训练区分性技术研究
【摘要】:倒谱特征和最大似然准则是传统连续语音识别系统广泛采用的特征提取和模型训练方法。然而,倒谱及其差分特征所获取的时间动态信息有限,且没有有效地利用模型间的分类混淆信息,使得特征的区分性不强;基于最大似然准则的模型训练方法没有考虑模型间的相互影响,通常需要在参数估计时引入假设条件,使其较难获得最佳的声学模型。区分性技术可以有效地缓解上述问题:区分性特征提取方法能够有效利用分类混淆信息进行长时特征的提取,提高特征的区分性和鲁棒性;声学模型区分性训练方法充分地考虑模型间的相互影响,专注于调整模型之间的决策面,能有效的降低错误率。本文主要研究连续语音识别区分性特征提取和声学模型区分性训练方法。对于区分性特征提取,本文从特征空间和模型空间两方面展开研究,取得了如下三个研究成果:(1)研究了基于特征空间的区分性特征提取,针对现有方法对分布复杂的数据识别性能不高的问题,提出了一种基于最小分类错误准则的线性判别分析方法。首先,采用非参数核密度估计方法进行数据概率分布估计;其次,根据得到的概率分布,在最小分类错误准则下,采用基于梯度下降的线性搜索算法求解判别分析变换矩阵;最后,利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征。实验结果表明,新方法提取的时频特征能有效地提升识别准确率。(2)进一步,针对因数据不足而造成较难提取稳定长时特征的问题,提出了一种基于群稀疏约束的混合判别分析方法。首先,采用高斯混合模型描述数据的分布,在此基础上利用二次变分的形式进行群稀疏的表示,得到基于群稀疏约束的混合判别分析目标函数;其次,通过定义模糊响应矩阵(blurred response matrix),有效地结合最优化得分方法求解判别分析变换矩阵;最后,拼接相邻帧梅尔滤波器组输出组成超矢量,采用变换矩阵进行变换降维,提取时频特征。实验结果表明,在数据不足和噪声环境下,新方法能获得更高的识别性能。(3)研究了基于模型空间的区分性特征提取,为了提高基于分帧区分性特征变换的稳定性,将特征变换当成高维信号的稀疏逼近问题,提出了一种基于语音分段和压缩感知的区分性特征变换方法。首先,采用状态绑定的方法训练得到基于域划分的线性变换矩阵(Region Dependent Linear Transform, RDLT)和基于最小音素错误准则的特征变换矩阵(feature Minimum Phone Error, fMPE),将两者的特征变换矩阵构成过完备的字典,采用强制对齐的方式对语音信号进行分段;然后,以似然度最大化作为目标函数,采用匹配追踪算法对目标函数迭代优化,自动地确定各语音信号段中的变换矩阵及其系数,并引入相关度测量,去除相关的特征基矢量;接着,将得到的变换矩阵作为初值,在似然度目标函数中加入正则项,利用快速迭代收敛阈值算法进行求解;最后,融合基于帧特征变换后的瓶颈特征(Bottleneck, BN)进行声学模型的训练。实验结果表明,相比于传统的RDLT方法,新方法能有效地提升识别率,并且具有更好的抗噪声性能。对于声学模型区分性训练,本文从训练准则、训练数据选取、互补系统构造等三个方面展开研究,取得了如下三个研究成果:(4)研究了声学模型的区分性训练准则,提出了一种广义边距的区分性训练准则,将不同的区分性训练目标函数统一到一个理论框架下,并设计了两种新的区分性训练目标函数。通过分析不同区分性训练目标函数之间的关系,以最大互信息(Maximum Mutual Information, MMI)作为分离度量,把不同的区分性训练目标函数统一为基于广义边距的区分性训练准则;进一步在该广义边距准则下,通过对其权重函数进行讨论,得到两种区分性训练目标函数:利用组合增进因子和候选词路径中误识词个数,加权候选路径,得到软增进的最大互信息(Soft Boosted MMI, SBMMI)目标函数;利用基于单个候选词的后验概率定义每一训练语句的错误识别率,采用幂指数的形式对单个候选词动态加权,得到变权最大互信息(Variable Weighting MMI, VWMMI)目标函数。实验结果表明,SBMMI方法准确率高于软边距估计准则和增进的最大互信息方法,VWMMI方法能在SBMMI方法基础上得到进一步提高。(5)研究了声学模型区分性训练中的数据选取方法,为了选取对模型训练有效的数据,减少语音识别系统的运算量,提出了一种基于动态加权的数据选取方法。首先,采用后验概率的beam算法裁剪词图,在此基础上依据候选词的后验概率定义每一候选路径的错误率,基于错误率动态的赋予候选词不同的权值;其次,通过统计音素对之间的混淆程度,给易混淆音素对动态地加以不同的惩罚权重,计算音素准确率;然后,在估计得到弧段期望准确率分布的基础上,采用高斯函数形式对所有竞争弧段的期望音素准确率软加权;最后,联合后验概率和音素准确率选取数据。实验结果表明,动态加权方法识别准确率优于最小音素错误准则,同时能减少训练时间。(6)研究了区分性互补系统的构造方法,针对现有互补系统构造的理论性不强,互补系统间差异性描述不够精确的问题,在区分性训练的框架下,提出了一种基于混淆信息加权的区分性互补系统构造方法。首先,通过统计音素对的混淆信息,利用混淆信息给音素对加以不同的惩罚权重,分别以基线系统中的三个最优识别结果作为参考,计算混淆信息加权后的音素准确率,同时以正确的标注为参考计算标准的音素准确率;其次,通过同时最大化混淆信息加权后的音素准确率和最小化标准音素准确率,构建模型层互补系统;最后,通过结合RDLT特征变换过程构造特征层的互补系统。实验结果表明,该方法可以增大互补系统间的差异性,与互补最小音素错误准则相比,融合模型层互补系统后识别率得到了提高,同时融合特征层和模型层的互补系统识别率能获得最好的识别性能。
|
|
|
|
1 |
马少华,高峰,李敏,吴成东;神经网络分类器的特征提取和优选[J];基础自动化;2000年06期 |
2 |
管聪慧,宣国荣;多类问题中的特征提取[J];计算机工程;2002年01期 |
3 |
胡威;李建华;陈波;;入侵检测建模过程中特征提取最优化评估[J];计算机工程;2006年12期 |
4 |
朱玉莲;陈松灿;赵国安;;推广的矩阵模式特征提取方法及其在人脸识别中的应用[J];小型微型计算机系统;2007年04期 |
5 |
赵振勇;王保华;王力;崔磊;;人脸图像的特征提取[J];计算机技术与发展;2007年05期 |
6 |
冯海亮;王丽;李见为;;一种新的用于人脸识别的特征提取方法[J];计算机科学;2009年06期 |
7 |
朱笑荣;杨德运;;基于入侵检测的特征提取方法[J];计算机应用与软件;2010年06期 |
8 |
王菲;白洁;;一种基于非线性特征提取的被动声纳目标识别方法研究[J];软件导刊;2010年05期 |
9 |
陈伟;瞿晓;葛丁飞;;主观引导特征提取法在光谱识别中的应用[J];科技通报;2011年04期 |
10 |
王华,李介谷;人脸斜视图象的特征提取与恢复[J];上海交通大学学报;1997年01期 |
11 |
黄丽莉;皋军;;基于局部加权的非线性特征提取方法[J];华中科技大学学报(自然科学版);2013年S1期 |
12 |
徐昉,邱道尹,沈宪章;粮仓害虫的特征提取与分类的研究[J];郑州工业大学学报;2000年04期 |
13 |
马希荣,王行愚;西夏文字特征提取的研究[J];计算机工程与应用;2002年13期 |
14 |
王萍,王汉芝,岳斌,林孔元,刘还珠;一种大规模样本数据的特征提取方法[J];天津轻工业学院学报;2003年04期 |
15 |
王社阳,强文义,陈兴林,张宏宇;基于空间矩的角特征提取[J];控制与决策;2005年03期 |
16 |
高湘萍;吴小培;沈谦;;基于脑电的意识活动特征提取与识别[J];安徽大学学报(自然科学版);2006年02期 |
17 |
路志英;杨乐;赵智超;杨玉峰;;沙尘暴综合预报系统中场特征提取方法的研究[J];计算机仿真;2007年06期 |
18 |
李海霞;王阶;孙占全;何庆勇;吴荣;张继红;西广成;胡元会;;基于生物信息特征提取的中医辨证[J];北京中医药大学学报;2007年12期 |
19 |
于金霞;蔡自兴;段琢华;;2D测距图像的特征提取及类别划分研究[J];系统仿真学报;2008年01期 |
20 |
张焱;张志龙;沈振康;;一种融入运动特性的显著性特征提取方法[J];国防科技大学学报;2008年03期 |
|