低速率波形内插语音编码关键技术的研究
【摘要】:
在现代通信系统中,语音是最基本、最重要的通信方式,通常是经过压缩以比特流的形式传输的,由于考虑到传输成本、效率、占用的物理信道、存储空间等因素,人们希望在保证好的语音质量的前提下,尽可能地压低语音编码的传输速率。这个语音信息压缩过程被称为语音编码。
低速率语音编码已被广泛地应用在无线移动通信,VoIP(Voice over Internet Protocol)、语音信箱、保密通信和卫星通信中。随着下一代无线网络和Internet网络的发展,语音编码更多的应用和服务将会被提供。这使得近些年来人们对高质量的低速率语音编码有着持续增长的兴趣。因此,研究如何在低速率下获得具有通信质量的重建语音是语音编码中一个十分重要的课题。
在高质量低速率的语音编码中,波形内插(Waveform Interpolation,WI)语音编码技术是极具潜力的编码方案之一。近些年许多学者对其进行了广泛的研究,本文在此基础上针对低速率WI语音编码模型和参数量化等关键技术进行了深入的研究,提出了一系列改进算法,并最终提出一种2kb/s低复杂度改进型波形内插(Low-complex Improved Waveform Interpolation,LIWI)语音编码方法。本文的主要贡献体现为如下几方面:
一、为了减少WI模型的计算复杂度,提出了基于快速傅立叶变换、三次B样条插值和周期延拓技术的特征波形(Characteristic Waveform,CW)表示和对齐的快速算法,与原方法相比,计算量下降到原方法的1/5,同时也使得CW在插值和量化时更合理;
二、为了严格保证SEW与REW的能量和为1,提出了一种特征波形的二次功率归一化算法,仅需要SEW能量就可以算出二者的能量比,并可应用到后续的REW的分类量化和CW合成中;
三、为了对慢渐变波形(Slowly Evolving Waveform,SEW)幅度、快渐变波形(Rapidly Evolving Waveform,REW)幅度和特征波形功率进行有效量化,本文首先采用临界频带理论、分析合成技术、感觉加权技术以及预测式矢量量化技术,提出了一种基于基音周期分类的SEW分析合成预测式多码书量化方法;其次,本文根据基音和量化后SEW的功率信息对REW幅度进行分类,提出了一种基于离散余弦变换的REW矩阵多码书量化方法。这种SEW和REW幅度的多码书量化方法在牺牲了一些储存空间的条件下,有效解决了低比特率WI编码中比特分配不足的问题;再者,本文以语音能量的平稳过渡性为依据,提出了CW功率的分类量化方法,有效地改善了过渡段和起始段的功率量化精度。实验结果表明,这些量化方法明显地提高了重建语音的感性质量;
四、根据SEW和REW的能量比对合成语音进行分类,提出了一种CW的动态加权合成方法,即SEW成分正比于能量比,REW成分反比于能量比。该方法在很大程度上解决了WI模型不太适合描述清音的问题,提高了合成语音的自然度;
五、提出了基于Sigmoid函数的改进型基音内插方法,修正了原公式在某些特殊基音插值中出现的“病态”的插值结果;
六、提出一种基于支持向量机的含噪语音的清/浊/静音的分类方法,这种方法可以在各种信噪比等级下将语音信号有效地分为清音、浊音和静音三类信号,并在此基础上开发出具有鲁棒性的语音激活检测算法;
七、开发出一套低复杂度高质量的2kb/s的WI语音编码算法,并对其语音质量、算法时间复杂度和空间复杂度等参数做了评测。其中,诊断押韵测试(Diagnostic Rhyme Test,DRT)表明,重建语音的可懂度为优;平均意见分(Mean Opinion Score,MOS)测试及主观A/B测试表明2kb/s LIWI编码器的语音质量接近美国联邦标准FS1016的4.8kb/s码激励线性预测(Code Excited Linear Prediction, CELP)编码器,好于2.4kb/s混合激励线性预测(Mixed Excitation Linear Prediction, MELP)声码器;编解码算法的计算复杂度约为91.254MOPS,所需的存储容量大约为78K个浮点存储单元。
|
|
|
|
1 |
王少勇,王秉钧;语音编码技术的现状与发展[J];天津通信技术;2000年02期 |
2 |
陈在;;一种用于语音编码的高效矢量量化新方法[J];通信技术;1992年02期 |
3 |
邹峰;郭英;陈新富;刘燕;;基于MELPe模型的600 BPS声码器算法设计[J];空军工程大学学报(自然科学版);2007年03期 |
4 |
范晶;和应民;;一种改进的MELP算法[J];应用科技;2008年05期 |
5 |
吴婷婷;曾毓敏;;一种基于改进的矢量量化技术的语音波形编码[J];电子工程师;2007年10期 |
6 |
计哲;李晔;崔慧娟;唐昆;;SELP声码器基音周期参数量化合成改进算法[J];高技术通讯;2010年01期 |
7 |
鲍长春,卓力,王永会;LSF参数的模拟退火法连接分裂矢量量化[J];电子学报;2001年01期 |
8 |
赵永刚;唐昆;崔慧娟;;基于Gaussian混合模型的LSF参数量化方法[J];清华大学学报(自然科学版);2006年10期 |
9 |
李靓,鲍长春,王贵平;波形内插语音编码技术回顾与展望[J];通信学报;2005年01期 |
10 |
罗亚飞;鲍长春;;低速率WI编码器中4~6bit基音量化算法研究[J];电子与信息学报;2007年11期 |
11 |
罗艳芬,万国金,黄建红;神经网络矢量量化技术在语音编码中的应用[J];计算机与现代化;2005年08期 |
12 |
王贵平,鲍长春,李靓;语音特征波形的分解与量化[J];电声技术;2005年01期 |
13 |
朱琦,酆广增;一种可用于CDMA移动通信的变速率语音编码算法[J];电子与信息学报;2002年06期 |
14 |
华国刚,戴蓓蒨,张钦,李辉;一种改进的MELP语音编码方法[J];电路与系统学报;2003年01期 |
15 |
杨震,唐素兰,林建中,郑宝玉;一种基于SBC技术的16kbit/s高效语音编译码器[J];信号处理;1996年01期 |
16 |
黄德智,马尽文;LD-CELP语音编码算法中矢量量化过程的改进[J];电子学报;2001年10期 |
17 |
唐昆;可供数字移动通信系统应用的语音编码[J];电信科学;1991年04期 |
18 |
黄冰;杨召青;吕治国;;基于TMS320C5416的G.729语音编解码算法的优化和实现[J];电子技术应用;2008年07期 |
19 |
薛二娟;鲍长春;李如玮;;基于二维非负矩阵分解的1kb/s WI语音编码算法[J];电子学报;2010年07期 |
20 |
鲍长春;一种有效的典型波形块内插方法[J];电子与信息学报;1999年06期 |
|