收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

智能家居环境中个性化语音生成关键技术研究

高伟勋  
【摘要】:随着物联网的发展,各种智能家电如音像设备、照明系统、安防系统、自动控制门窗及环境自动调节系统、多功能家用机器人等,通过家居网络平台构建了舒适的智能家居环境。智能家居的普及大大方便了人们的生活。智能家居网络平台中的语音控制技术提高了人与智能家居的信息交互能力和方便性。随着语音识别技术的应用,越来越多的智能家电逐步支持语音控制的能力,目前最新的研究是如何让家居网络平台使用对话系统,让智能家居设备使用与家庭成员相同特征的语音和使用者进行交互,使这些设备具备个性化语音发声的能力,从而提高智能家居使用的趣味性和幸福感。由于家庭成员的语音特征各不相同,此方面的研究仍是一个难题。语音合成技术是语音技术研究的一个重要组成部分,个性化语音生成是语音信号处理领域中一个相对较新的分支。通过个性化语音生成技术,就可以使用目标对象少量的语音数据,生成出具有目标对象个性化特征的语音。目前基于智能家居环境中个性化语音生成技术的研究,存在着当目标对象只有有限的采样语音数据情况下,由于样本数据库较小及计算能力有限,生成出来的语音有机械感,在声调和频谱上失真,语音的自然度和相似度指标低,更不能实现转换输出多种语音或多种方言。所以,研究个性化语音生成技术具有重要的应用价值。目前,在个性化语音生成方法中,以Tokuda、Huang为代表的基于隐马尔可夫模型(Hidden Markov Models,HMM)建模是主流的语音生成方法,但该方法中的混合激励模型中的参数采用了经验值估测,导致生成参数不精确。并且该模型中源说话人自适应特征训练过程不够优秀,损失了说话人的声学特征差异,导致频谱语音特征参数不准确,因此语音的自然度和相似度指标低,需要进一步研究如何提高合成语音的质量。而且在智能家居语音生成技术中,使用多方言和智能家居实现人机对话,方便使用和具有亲切感,因此研究多方言的转换技术具有十分重要的意义。基于以上情况,本文围绕个性化语音生成技术主流的合成模型进行研究,提出了自适应方法和声音转换新技术,主要的研究内容如下:为了提高个性化语音生成的自然度和相似度,减少语音的失真程度,本文改进了混合激励模型中参数的获取方法,以及混合激励模型中的各个带宽的浊音周期性比例提取方法,并将混合激励参数与频谱参数相结合,改进了隐马尔可夫模型的混合激励机制,该机制能明显地改善生成语音的质量。最后,实验结果表明了本文改进方法的正确性和有效性。针对隐马尔可夫模型中,源说话人自适应特征训练过程不够优秀,导致损失说话人声学特征差异的问题,本文提出了基于时变双线性函数的频率弯折方法,改进了源说话人自适应特征训练过程。通过将传统方法与频谱弯折方法进行实验对比,表明本文提出的频率弯折方法可以使源语音频谱更接近目标语音频谱,减少说话人声学特征的损失,所生成的语音在自然度和相似度上均得到提升。为了解决智能家居语音生成技术中多方言的转换问题。本文在分析了经典说话人转换技术的基础上,提出了基于神经网络的跨方言说话人转换系统框架,基于该框架,使用一种预训练方法,完成了基于语音序列感知的神经网络建模。本文实验是以普通话和上海话的转换为例,验证了可以解决个性化语音生成技术中多方言的转换问题。实验结果显示该方法是可行的。本文的主要创新研究成果如下:第一,本文首次系统地分析比较了在混合激励模型中两种周期性比例的提取方法:梳状滤波器、归一化相关系数,并通过基于隐马尔可夫模型的语音合成实验,证明了使用混合激励模型合成的语音质量得到了显著地提高。第二,本文提出的基于频率弯折的说话人自适应方法,可以显著提升个性化语音生成的自然度和相似性。相较于传统方法,本文的方法具有如下创新点:1)在源说话人和目标说话人间引入了最小化加权对数谱距离准则,取代使用最大似然准则对源说话人特征进行转化,这一准则的应用提高了所生成的个性化语音在感知上的相似度。2)引入双线性弯折函数对频域和时域进行平滑转化,函数采用基于帧的弯折因子,更好地保留了语音时变的特征。3)重新训练后的源说话人隐马尔可夫模型获得了更好的初始化。第三,本文首次提出了跨方言语音特征学习模型的方法和准则,实现了不同地方语言的说话人转换。其创新点主要体现在以下三个方面:1)将独立于语言的频率弯折方法应用在跨方言的说话人转换中,从而大大地降低了所需的训练数据量和计算复杂度;2)在神经网络训练中采用了预训练,从而使神经网络的权重能得到比随机初始化更好的起点,从而提高了神经网络训练算法的收敛速度;3)提出了基于语音序列感知的训练准则,该准则能最大限度地减少序列级别的错误,大大提升了跨方言说话人语音转换的性能。本文在个性化语音生成的相关技术方面进行了创新和改进,为智能家居环境中研究语音技术提供了研究思路和应用借鉴。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高福友;陈雁翔;;一种基于说话者的无监督语音分割算法[J];合肥工业大学学报(自然科学版);2010年05期
2 张江安,杨洪柏,林良明,颜国正;一种基于段间距离测度的语音自动分割方法[J];上海交通大学学报;2001年09期
3 张俊星;刘宇;;基于二级搜索模型的有声出版物语音分割算法[J];吉林大学学报(工学版);2009年S2期
4 孙艳萍;戴丽玲;;通用型电梯自动语音报站系统的设计[J];制造业自动化;2012年03期
5 徐露;徐明星;杨大利;;面向情感变化检测的汉语情感语音数据库[J];清华大学学报(自然科学版);2009年S1期
6 江亮亮;李雪敏;杨付正;杨旭;;引入内容特性分析的包层语音质量评价模型[J];四川大学学报(工程科学版);2013年03期
7 张剑;潘晓衡;邓见光;;语音文摘研究综述[J];东莞理工学院学报;2013年03期
8 孔祥通;王春平;孙书鹰;李军;;单炮火控机语音报读器的设计与实现[J];测控技术;2013年03期
9 唐宏文;;基于AT89C51的语音录放系统[J];硅谷;2011年09期
10 曹亮;张天骐;周圣;胡然;;一种基于奇异谱的语音激活检测方法[J];应用声学;2013年02期
11 任新社;缪华;马青玉;;基于改进特征值的语音分割算法研究[J];南京师范大学学报(工程技术版);2011年03期
12 李海洲,徐秉铮;语音的音素状态模型[J];华南理工大学学报(自然科学版);1992年04期
13 张飞;方勇;;基于小波变换的多阈值法语音去噪研究[J];机电产品开发与创新;2008年04期
14 袁全保;;基于CPLD和ISD2560芯片的语音报站系统设计[J];成都大学学报(自然科学版);2005年04期
15 胡海波;任立伟;刘柏森;;多种噪声环境下语音检测算法[J];黑龙江工程学院学报(自然科学版);2012年03期
16 张璐;;现代汉语语音段的教学法探索[J];中国电力教育;2011年34期
17 王道成,胡修林,张蕴玉;基于短时相关性和极值点的语音边界检测[J];华中科技大学学报;2000年12期
18 安茂波;国雁萌;付强;颜永红;;行驶汽车环境中的话音活动检测研究[J];应用声学;2012年05期
19 姚振杰;黄海;陈祥献;;基于经验模式分解的语音端点识别方法[J];浙江大学学报(工学版);2009年04期
20 钟山;刘加;;MLLR特征的SVM语种识别算法[J];清华大学学报(自然科学版);2009年S1期
中国重要会议论文全文数据库 前9条
1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年
6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 刘红星;戴蓓蒨;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年
2 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
3 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
4 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年
5 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
6 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年
7 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年
8 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
9 应娜;基于正弦语音模型的低比特率宽带语音编码算法的研究[D];吉林大学;2006年
10 田立斌;语音通信质量客观评价、有效接收及错误恢复算法研究[D];华南理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 张占松;基于DSP的语音干扰方法研究与实现[D];北京交通大学;2016年
2 李鹏;基于系统融合的语音查询项检索技术研究[D];解放军信息工程大学;2015年
3 周慧;基于PAD三维情绪模型的情感语音转换与识别[D];西北师范大学;2009年
4 李尘一;基于联合得分的语音置信度评估系统的研究与设计[D];内蒙古大学;2006年
5 朱君波;PCA在语音检测中的应用研究[D];浙江工业大学;2004年
6 陈宇超;广播语音的分割与分类研究[D];北京邮电大学;2009年
7 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
8 邸燕君;基于感知哈希的语音内容认证方法研究[D];兰州理工大学;2013年
9 杨帅;聋儿语音恢复系统的语音识别研究[D];山东大学;2009年
10 林剑峰;自主心智发育机器人的语音感知映射[D];复旦大学;2008年
中国重要报纸全文数据库 前5条
1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年
2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
5 ;与“小超人”对话[N];中国计算机报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978