连续语音识别的稳健性技术研究
【摘要】:说话人差异,信道失真和背景噪声导致训练环境和测试环境不匹配,严重影响了非特定人连续语音识别系统的性能。为提高中文连续语音识别系统的稳健性和自适应能力,本文从信号空间、特征空间和模型空间三个方面对说话人归一化、语音增强、端点检测、特征补偿和不确定解码等关键技术进行了深入研究和分析,提出了一些新的思路和方法,并以大量的实验予以证明。本文主要完成了如下工作:
1.将双线性频率弯折方法引入到声道长度归一化中。传统的频率弯折方法存在声道模型假设过于简单,变换后信号频谱带宽改变的问题。本文根据双线性变换中低通滤波器截止频率的映射公式,求出对齐不同说话人或人群第三共振峰的频率弯折因子。利用该频率弯折因子,对Mel滤波器组的位置和宽度进行双线性变换,得到声道长度归一化的特征矢量。该方法避免了对弯折因子的线性搜索,同时还利用了双线性变换使弯折频谱连续且无带宽改变的优点。实验证明,该方法是一种快速的、尤其适用于无监督模式下的稳健性方法。语音特征参数经过声道长度归一化后,在孤立词识别中,成年男性语料训练的基线系统对成年女性语料的识别率从71.50%提高到了91.00%,对儿童语料的识别率从71.00%提高到了84.00%;在连续语音识别中,男性语料训练的HMM声学模型参数集对女性语料的识别率从13.91%提高到了50.56%。
2.采用高斯混合模型(Gaussian Mixture Model,GMM)分类器对测试语句的信道环境进行分类。在多信道环境下进行语音识别时,当基线系统的信道环境与测试语句的信道环境匹配,识别率要明显高于用某一种信道语料或多种信道语料混合训练的基线系统的识别率。如果用各信道的语料分别建立一个GMM模型,信道的差别就转而体现在各GMM的差别上,且具有可分性。本文用各电话信道的洲练语料训练出相应的GMM信道模型和HMM声学模型,在识别时候,对测试语句进行信道分类,选择相应信道下的HMM声学模型对该语句进行识别。实验结果表明,该方法能有效提高多信道环境下的语音识别率。
3.推导了一种基于离散余弦变换和听觉掩蔽效应的子空间降噪算法。本文采用离散余弦变换来逼近本征分解中的Karhunen-Loeve变换,用基于Johnston掩蔽模型的感知滤波器对降噪后的语音进行后置滤波。该方法利用基于离散余弦变换的本征分解快速算法,可将运算复杂度O(N~3)减少到N~2,同时能有效地抑制残差噪声。
4.提出了特征空间能量熵的定义。当背景噪声为有色噪声或噪声能量可变时,传统的语音端点检测方法往往失效。带噪语音的空间可分为正交的信号加噪声子空间和噪声子空间。语音信号是由确定性的非线性动力系统产生,所以它的能量将集中在信号加噪声子空间。而随机噪声的能量在整个带噪语音空间中近似均匀分布。因此语音和噪声具有不同的空间能量分布,有着不同的空间能量熵。本文对语音信号的协方差矩阵进行本征分解,由特征值求出信号在特征空间能量概率分布,提出了特征空间能量熵的
|
|
|
|
1 |
俞一彪,袁保宗;连续语音识别中句法结构知识的利用[J];电子学报;1990年06期 |
2 |
谢锦辉,潘小兵;连续语音识别系统性能评估软件[J];计算机应用与软件;1994年02期 |
3 |
吴及,刘丰,王作英;连续语音识别系统中测度计算的快速算法研究[J];清华大学学报(自然科学版);1999年05期 |
4 |
茅力群;;利用HMM提取连续语音中的口型信息[J];微计算机信息;2006年02期 |
5 |
王鸿儒;杨根科;杨祖华;;基于HTK的连续语音识别网站系统的研究和实现[J];微型电脑应用;2010年07期 |
6 |
李易军,徐近霈,吴枫;用于连续语音识别的RBF-Gamma-HMM组合模型[J];电子学报;1999年09期 |
7 |
付跃文,杜利民;语音识别错误的分类分析[J];计算机应用;2005年02期 |
8 |
;听觉不错 Voice Xpress简化了Word控制,增加了连续语音识别[J];每周电脑报;1998年19期 |
9 |
叶虹;;基于仿生模式识别的非特定人连续语音识别的研究[J];浙江工业大学学报;2006年04期 |
10 |
;让中国的计算机“听话”——中文语音识别产品步入实用化阶段[J];互联网周刊;1999年27期 |
11 |
王守觉,潘晓霞,徐春燕,陈旭,安冬,曹文明;一种基于高维空间覆盖动态搜索方法的非特定人连续数字语音识别的研究[J];电子学报;2005年10期 |
12 |
孙阿利;蒋冬梅;吕国云;Hichem Sahli;Werner Verhelst;;基于动态贝叶斯网络的语音识别及音素切分研究[J];计算机应用研究;2007年10期 |
13 |
张建军;人机对话走向大众[J];中国计算机用户;1998年01期 |
14 |
欧智坚,王作英;从线性预测HMM到一种新的语音识别的混合模型[J];电子学报;2002年09期 |
15 |
吕萍,吴及,王作英,陆大;连续语音识别中的说话人快速自适应技术[J];清华大学学报(自然科学版);2002年07期 |
16 |
陈国平,杜利民,付跃文,王劲林;基于MBIC的决策树聚类算法在连续语音识别中的应用[J];计算机应用;2005年12期 |
17 |
秦磊;黄昶;;连续语音关键字识别的方法[J];中国科技信息;2006年20期 |
18 |
杨善茜;黄汉明;蒋正锋;李锐;;基于HTK的语音识别网络优化算法[J];计算机工程;2010年14期 |
19 |
叶虹;王海伦;姜春娣;;非特定人问候语连续语音识别技术的研究[J];浙江工业大学学报;2010年05期 |
20 |
赵鹤鸣,周旭东;基于知识的汉语连续语音识别研究[J];计算机研究与发展;1993年06期 |
|