收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

序列到序列的语音生成声学模型研究

张景宣  
【摘要】:序列到序列模型是一类深度学习统计模型,可以用于对给定输入序列下输出序列的条件概率进行建模。近年来,序列到序列模型在众多领域的应用表现出众,包括语音识别、自然语言处理等任务。随着谷歌研究人员于2017年提出Tacotron模型以后,序列到序列声学模型被广泛应用于语音生成任务中,取得了令人瞩目的效果。序列到序列模型相比于传统模型的主要优势在于模型的框架十分灵活,理论上可以对任意性质的序列对之间的关系进行建模。而且序列到序列模型通过自回归的方式对输出序列的概率进行建模,没有隐马尔可夫模型(hidden Markov model,HMM)等序列模型中对于时间条件独立性的不合理假设。序列到序列模型并没有规定模型的每个部分的细节如何构建。任务可以根据输入数据的性质,使用不同神经网络结构构建序列到序列模型中的不同模块,比如长短时记忆网络、卷积神经网络等。语音生成任务赋予机器灵活地生成语音的能力,是人机交互的一个重要环节,具有广泛的应用场景和重要的研究意义。本文关注的语音生成任务主要包含了语音合成、话者转换和发音特征到语音生成任务。不同的任务虽然输入数据的性质有所不同,但是共享相同的任务目标,即生成自然的语音。本文研究的语音生成任务都可以使用序列到序列模型来解决。近年来,序列到序列模型应用于语音生成虽然有了重大进展,但是仍然存在一些问题需要解决。例如序列到序列模型中的注意力机制存在不稳定问题,会造成生成语音发音错误;序列到序列模型尚未成功应用于平行和非平行话者转换任务中;发音特征到语音生成任务面临数据稀疏的问题,等等。本文针对这些问题,围绕序列到序列的语音生成声学模型开展了相关研究,提升了模型在相应语音生成任务上的性能。本文的主要研究内容包括:第一,本文对序列到序列语音合成中的注意力机制进行了研究。序列到序列模型用于语音合成存在稳定性方面问题,经常出现发音错误、重复发音等现象。受到语音合成任务中文本和语音单调性对齐的特点的启发,本文提出一种序列到序列模型中的前向注意力方法。实验证明前向注意力方法可以有效的提升序列到序列语音合成的稳定性。第二,本文对基于序列到序列模型话者转换方法进行了研究。对于平行话者转换任务,本文提出了序列到序列话者转换模型,该模型可以对输入语音的语速等韵律特征进行转换,有效提升了转换语音的自然度和相似度。对非平行话者转换的问题,本文提出了基于特征解耦的序列到序列模型。提出模型利用对抗学习和文本联合空间学习的策略,可以有效分离语音中的说话人信息和语言学信息。该方法用于非平行话者转换,在自然度和相似度上取得了接近于平行序列到序列话者转换的效果。此外本文还提出了基于对抗学习的识别-合成话者转换方法和直接串联自动语音识别-语音合成系统的话者转换方法。第三,本文对发音特征到语音生成任务进行了研究。该研究使用了超声波舌部图像和口唇图像作为发音特征,任务的目标是恢复自然的语音。针对发音特征数据稀疏的问题,本文提出了一种基于语音合成迁移学习的方法,可以有效的提升恢复语音的可懂度和自然度。


知网文化
【相似文献】
中国期刊全文数据库 前15条
1 张雄伟;李嘉康;孙蒙;郑琳琳;;语音欺骗检测方法的研究现状及展望[J];数据采集与处理;2020年05期
2 陶建华;傅睿博;易江燕;王成龙;汪涛;;语音伪造与鉴伪的发展与挑战[J];信息安全学报;2020年02期
3 高俊峰;陈俊国;;基于Style-CycleGAN-VC的非平行语料下的语音转换[J];计算机应用与软件;2021年09期
4 赵璇;;雪莱诗歌中的语音象似性探究[J];现代交际;2021年01期
5 王雯琪;;以“呃”类语音标记为特色的淄博方言易位现象[J];北部湾大学学报;2020年07期
6 田蕾;;语音隐喻的语用阐释[J];海外英语;2021年03期
7 汪学财;;语音专练50例[J];英语知识;1994年02期
8 黄小燕;;汉语时闻中的语音隐喻特征和作者意图探究[J];武夷学院学报;2021年01期
9 陈晓光;;校园自动语音广播软件的设计与实现[J];电脑编程技巧与维护;2021年05期
10 张旭;王力华;赵东阳;;基于微信小程序的医院移动语音录入应用探索与实践[J];中国卫生信息管理杂志;2021年04期
11 张吉生;;从跨语言语料看语音单位与音系范畴的区别和互补[J];当代语言学;2021年03期
12 石兰;;民俗文化中的语音隐喻[J];海外英语;2021年15期
13 廉越;;从语音发声实际出发分析重音的价值[J];汉字文化;2021年18期
14 李四维;程贵锋;何双旺;张笛;;语音助手能力评估研究及趋势分析[J];广东通信技术;2019年12期
15 王雪娇;;广告语中语音隐喻的使用规则研究[J];传播力研究;2020年03期
中国重要会议论文全文数据库 前20条
1 郑秋豫;;神经语言学与语音工程[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 陶建华;康永国;;情感语音韵律自动生成方法的研究[A];中国声学学会2006年全国声学学术会议论文集[C];2006年
3 莫锦贤;马常楼;;文本文件转换成语音文件及其合成输出[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年
4 段成;;语用学视角下的语音隐喻[A];外国语文论丛(第2辑)[C];2009年
5 王引波;张伟;;语音情感分析在电信增值业务中的应用[A];天津市电视技术研究会2016年年会论文集[C];2016年
6 劳新亮;彭少华;彭海棠;;核电站语音通信保障方案的研究[A];软件定义 面向未来——2014电力行业信息化年会论文集[C];2014年
7 云冠民;;含无限词汇的汉英语音发生器[A];全国计算机辅助教育学会第四届学术年会论文集[C];1990年
8 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 王晖;;语音代答业务的方案设计[A];第九届中国通信学会学术年会论文集[C];2012年
10 石锋;;语音格局的分析方法[A];第六届全国现代语音学学术会议论文集(上)[C];2003年
11 简世杰;;一种适用于长语音串流的切割方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年
12 柳凤兰;;“语音通”业务的实现[A];内蒙古通信学会2005年年会论文集[C];2005年
13 于子桐;郭龙祥;李会锋;;水声语音通信信源编码优化[A];中国声学学会2017年全国声学学术会议论文集[C];2017年
14 ;中国移动语音社交应用行业研究报告[A];艾瑞咨询系列研究报告(2015年第3期)[C];2015年
15 马啸空;郭武;;复杂噪声场景下的活动语音检测方法[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
16 王健;;智能语音人机交互技术在移动设备中的应用[A];第九届全国信号和智能信息处理与应用学术会议专刊[C];2015年
17 王齐琳;李晓蔚;;介绍一种语音提醒机[A];首届中国仪器仪表学会医疗仪器分会学术会议论文集[C];1993年
18 旷婧华;邓伟;杨光;;分组域承载语音的方案分析及成本比较[A];中国通信学会信息通信网络技术委员会2011年年会论文集(下册)[C];2011年
19 王薇;杨震;;利用动态特征的语音转换系统性能研究[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年
20 周洁;;基于高斯混合模型的情感语音转换[A];2011'中国西部声学学术交流会论文集[C];2011年
中国博士学位论文全文数据库 前20条
1 张景宣;序列到序列的语音生成声学模型研究[D];中国科学技术大学;2021年
2 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年
3 张静;昆曲语音体系研究[D];上海戏剧学院;2020年
4 潘欣裕;谎言语音检测分析研究[D];苏州大学;2016年
5 李光泽;中国青少年英语学习者语音加工技能与阅读能力的关系研究[D];广东外语外贸大学;2009年
6 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
7 田立斌;语音通信质量客观评价、有效接收及错误恢复算法研究[D];华南理工大学;2004年
8 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
9 钟智翔;论缅语语音的历史分期与历史发展[D];中国人民解放军外国语学院;2007年
10 张希翔;面向语音环境的情感补偿推荐模型及方法研究[D];湖南大学;2017年
11 柳春;甘肃临夏方言回腔语音格局研究[D];西北民族大学;2010年
12 赖布尔(Muhammad Nabeel Talib);语义支持的一种面向盲人使用者的电子商务语音浏览方法研究[D];华中科技大学;2011年
13 纪翔;语音智能助手的评测框架[D];清华大学;2018年
14 陈华伟;语音通信中音质客观评价研究[D];西南交通大学;2007年
15 朱铮宇;语音唇动关联性分析方法研究及其在录音回放检测中的应用[D];华南理工大学;2016年
16 韩勇;基于笔和语音的交互应用研究[D];北京交通大学;2006年
17 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年
18 李波;语音转换的关键技术研究[D];国防科学技术大学;2005年
19 许春冬;嘈杂声学环境下的时频语音出现概率与噪声功率谱估计[D];北京理工大学;2016年
20 徐静波;语音时频及非线性增强处理方法研究[D];解放军信息工程大学;2005年
中国硕士学位论文全文数据库 前20条
1 李清华;语音转换技术研究及实现[D];湖南师范大学;2015年
2 王超;基于模糊综合评价的语音评测模型的研究与实现[D];东华理工大学;2017年
3 唐闻欣;浅议博物馆中的语音导览[D];南京师范大学;2016年
4 王雪娇;俄语广告语中语音隐喻的研究[D];东北师范大学;2016年
5 杨仕芳;歌唱语音形态研究[D];西南大学;2013年
6 王晓丽;高表现力语音声学建模的研究[D];西北师范大学;2011年
7 穆培婷;语音唤醒技术在语音助手系统中的应用与实现[D];西安电子科技大学;2020年
8 康帅;语音对抗攻击技术研究[D];西安电子科技大学;2020年
9 马倩倩;基于个性特征的语音转换技术研究[D];河北经贸大学;2013年
10 朱敏;语音助手的系统设计与实现[D];山东大学;2013年
11 冯大伟;喉振式话筒语音的修复研究[D];山东大学;2012年
12 李翠翠;语音情感分析业务系统的设计与实现[D];北京邮电大学;2011年
13 韩玉蓉;基于深度学习网络的语音语种识别技术研究[D];西北大学;2021年
14 迟雨杰;无损语音口鼻气流信号采集及其在汉语塞音发音中的研究[D];天津大学;2016年
15 韩盛群;自然语言语音和谐实证研究[D];黑龙江大学;2016年
16 徐珺;基于Ad-Hoc的多方语音通信系统设计与实现[D];西安电子科技大学;2015年
17 吴丽君;语音变调技术研究[D];沈阳理工大学;2016年
18 武佳星;内蒙联通语音免打扰平台的设计[D];内蒙古大学;2015年
19 雷颖思;语音时长规整与变调技术研究[D];兰州交通大学;2015年
20 陈涵;清远抽水蓄能电站语音通信系统设计[D];华南理工大学;2014年
中国重要报纸全文数据库 前20条
1 ;IBM的语音解决方案[N];中国计算机报;2001年
2 本报记者 桂运安;语音点亮新声活[N];安徽日报;2014年
3 本报记者 曹术华 陈友梅;语音互联再造Internet[N];中国计算机报;2001年
4 记者 汪永安;讯飞推出首个“语音云”平台[N];安徽日报;2010年
5 《网络世界》记者 李夏艳;“语音云”开启移动互联语音时代[N];网络世界;2012年
6 本报记者 广鑫业;发展语音产业 关键在创新[N];安徽经济报;2013年
7 长江日报记者 占思柳 左洋;开车微信全语音 网上看病药到家[N];长江日报;2021年
8 本报记者;声讯信息:技术之心随“声”而动[N];安徽经济报;2021年
9 记者 刘娟 胡林果;微信也有假的,会盗取机主语音诈骗[N];新华每日电讯;2019年
10 本报记者 赵昂;语音社交平台会是新风口吗?[N];工人日报;2021年
11 许伟;苦等二十年,语音社交缺的不是“风口”[N];电脑报;2021年
12 中青报·中青网记者 周易;超八成受访者体验过语音交友[N];中国青年报;2020年
13 记者 刘霞;新设备可将大脑信号直接转换为语音[N];科技日报;2019年
14 本报见习记者 程唯珈;寻求智能时代的语音空间[N];中国科学报;2019年
15 张家伟;把脑信号“译”成语音 新技术有望帮助失语人士[N];健康报;2019年
16 杨宝升 董彦均;配个贴心语音助手[N];解放军报;2019年
17 南方日报记者 许隽 叶丹;语音助手新升级:无需反复唤醒,可连续对话[N];南方日报;2019年
18 盛玉雷;语音入口得加把“隐私锁”[N];人民日报;2019年
19 田怡;打造绿色语音社交环境需摒弃“流量崇拜”[N];科技日报;2019年
20 本报记者 许政 通讯员 邱雨森;18岁男子利用语音包秒变“可爱萌妹”大肆行骗[N];人民公安报;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978