神经网络在语音质量客观评价应用中的研究
【摘要】:
现有语音质量主观评价存在费时、费力、费钱,灵活性不够,重复性和稳定性较差,受人的主观影响较大等缺点。为了克服主观评价的缺点,有必要寻求方便、快捷的客观评价方法。传统的音质客观评价判断模型用简单的数学形式难以体现听觉系统对语音的感知性状,于是本文采用接近于主观评价处理方式的神经网络系统模型,针对大词汇量汉语语音数据库,进行基于输入-输出方式、仅基于输出方式的语音质量客观评价;以及针对有限单词闭集汉语语音数据库,进行基于转移概率测度的语音质量可懂度客观评价;并对相关神经网络的结构、算法进行分析研究。
传统的音质客观评价方法高度依赖于特征参数和失真测度,而且对信道干扰式样的增加很敏感;判断模型用简单的数学形式难以体现听觉系统对语音的感知性状。本文通过建立以径向基函数神经网络(RBFNN)为听觉判断模型的语音质量客观评价系统,有效地实现了从语音特征参数空间到人的听觉感知的非线性映射。RBF神经网络语音质量客观评价系统模型对特征参数的依赖性大大降低;而且在增加信道干扰式样的情况下,依然能取得高度相关的评价性能;评价结果性能比传统音质评价方法好;取得了跟主观评价MOS分值的高度相关性。但是训练建立一个RBFNN系统模型的时间代价较大。
基于广义同余神经网络(GCNN)的语音质量客观评价系统模型,时间代价更小、音质评价性能更好。建立了基于GCNN的音质评价系统模型,除具有RBFNN系统模型的所有优势外,具有更简单的系统结构、更强的泛化性能、更高的主客观相关系数、更小的偏差和绝对误差,训练建立系统模型的时间代价节省约三分之一。总之,GCNN系统模型相比于RBFNN系统模型,无论在建模系统所需的时间方面,还是在语音质量评价的相关性能方面都具有明显的优势。
提出了一种结构、算法更简单的递归神经网络——递归广义同余神经网络(RGCNN);并建立了基于递归广义同余神经网络的音质评价系统模型。从网络结构和调权算法两方面详细介绍了新提出的RGCNN,并总结了相比其它递归神经网络所具有的特点和优点;辨识仿真验证了RGCNN的有效性和收敛的快速性。为了体现语音信号的动态时变特性,考虑采用含有动力学性状的RGCNN,用于音质客观评价。通过建立基于RGCNN的语音质量客观评价系统模型,对连续语句语音和数字串话音进行基于输入-输出方式的音质客观评价,取得了理想的效果。
提出了采用神经网络,对基于输出方式的语音质量进行客观评价的一种新方法——NN/OBQA。由于基于输入-输出方式的评价方法要求必须有原始输入语音、在时间上要求内同步的缺陷;尝试采用神经网络进行基于输出方式的语音质量客观评价。NN/OBQA音质客观评价方法仅对语音系统输出端的待测语音信号提取特征参数,然后通过神经网络完成特征参数到主观评价MOS分的非线性映射,其映射值即为仅依赖于输出的音质客观评价结果;其与主观评价MOS分之间达到高度相关。
针对MOS分的音质评价研究已有不少,但对语音信息可懂度方面的音质评价研究,成果不多。本文针对有限闭集语音,探索设计了基于转移概率测度的可懂度评价原理;依照原理,提出了两种可懂度评价的具体方法:基于欧式距离转移概率测度的音质可懂度评价方法——EDTPM/ISQA和基于线性相关转移概率测度的音质可懂度评价方法——LCTPM/ISQA;提出了采用失真数据作为转移参考矩阵的思路方法,并详细分析了干净参考矩阵、失真参考矩阵的评价性能。对两种转移概率测度方法,采用干净参考矩阵、失真参考矩阵对语音质量成功地进行了可懂度评价;失真参考矩阵改善了客观可懂度评价结果与主观可懂度之间的相关性能。
【学位授予单位】:西南交通大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TN912;TP183
|
|
|
|
1 |
吴淑珍,邱小军;加权倒谱距离用于普通话客观音质评价[J];北京大学学报(自然科学版);1992年03期 |
2 |
潘立登,吴宁川;径向基函数神经网络正交最小二乘改进算法的实现[J];北京化工大学学报(自然科学版);2002年04期 |
3 |
佘远俊;张翠芳;鄢田云;;粒子群神经网络及其在非线性系统辨识中的应用[J];成都信息工程学院学报;2006年02期 |
4 |
丁瑾,钟涛,胡健栋;话音质量的一种新的评价方法[J];电子学报;1997年04期 |
5 |
刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期 |
6 |
陈国,胡修林,张蕴玉,朱耀庭;语音质量客观评价方法研究进展[J];电子学报;2001年04期 |
7 |
付强,易克初,田斌,张知易;语音质量客观评价的一步策略[J];电子学报;2001年07期 |
8 |
张志华,郑南宁,史罡;径向基函数神经网络的软竞争学习算法[J];电子学报;2002年01期 |
9 |
鄢田云,云霞,靳蕃,朱庆军;RBF神经网络及其在基于输出的客观音质评价中的应用[J];电子学报;2004年08期 |
10 |
杨大力,刘泽民;多层前向神经网络中BP算法的误调分析及其改进的算法[J];电子学报;1995年01期 |
|
|
|
|
|
1 |
李辉,赵晖;传统PSTN与VOIP的比较研究[J];电子科技大学学报;2004年02期 |
2 |
陈立全;胡爱群;;WLAN上VoIP容量提高的新方法[J];东南大学学报(自然科学版);2006年04期 |
3 |
陈国,胡修林,张蕴玉,朱耀庭;语音质量客观评价方法研究进展[J];电子学报;2001年04期 |
4 |
朱海毅,周春楠;VoIP基本原理[J];信息技术;2003年05期 |
5 |
刘远丰;杜明辉;;一种无线局域网语音质量评价方法[J];华南理工大学学报(自然科学版);2008年05期 |
6 |
曾德攀,成立新;VoIP网络中的端对端音频测试[J];解放军理工大学学报(自然科学版);2000年06期 |
7 |
杨仁忠,孙国滨,侯紫峰;基于IEEE802.11无线局域网的VoIP技术综述[J];计算机工程;2005年04期 |
8 |
王伟;王贞松;;马尔可夫模型在VoIP通话质量实时评估中的应用[J];计算机应用;2007年12期 |
9 |
陆洋;张超;陆建华;林孝康;;IEEE 802.11无线局域网接入环境下语音传输容量[J];清华大学学报(自然科学版);2008年01期 |
10 |
陶德元,何小海,吴志华;RS码编译码算法的实现[J];四川大学学报(自然科学版);2000年06期 |
|
|
|
|
|
1 |
朱明星,张德龙;RBF网络基函数中心选取算法的研究[J];安徽大学学报(自然科学版);2000年01期 |
2 |
付强,张德民,易克初;基于DyWT基音检测的改进MBE语音压缩算法[J];电路与系统学报;1998年03期 |
3 |
杨大力,刘泽民;随机动量因子的SMLMS算法及分析[J];电子学报;1993年07期 |
4 |
程俊,易克初,刘丰;广义时频表示的一种实时实现方法[J];电子学报;1997年01期 |
5 |
丁瑾,钟涛,胡健栋;话音质量的一种新的评价方法[J];电子学报;1997年04期 |
6 |
刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期 |
7 |
黄惠明,王瑛,赵思伟,张知易;语音系统客观音质评价研究[J];电子学报;2000年04期 |
8 |
陈国,胡修林,张蕴玉,朱耀庭;语音质量客观评价方法研究进展[J];电子学报;2001年04期 |
9 |
杨大力,刘泽民;多层前向神经网络中BP算法的误调分析及其改进的算法[J];电子学报;1995年01期 |
10 |
丁瑾,胡健栋;关于电子产品性能的模糊综合评判[J];电子学报;1995年02期 |
|