收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

个性化语音生成研究

双志伟  
【摘要】:个性化语音生成是指生成具有特定说话人特征的语音。个性化语音生成的应用非常广泛,比如可以改变语音合成系统的语音以提供个性化的合成语音,或在语音聊天、在线游戏中隐藏说话人的真实身份,也可以在多媒体彩信中模仿他人以达到娱乐的效果等。目前最常用的个性化语音生成方法有两种:一是说话人转换方法二是语音合成模型自适应方法。两种方法有着各自的优缺点,适用于不同的应用场合。本文对这两种方法的特点和联系进行探讨,针对不同方法存在的问题和应用的实际需求进行改进,并通过系统评测验证了改进的效果。论文包括五部分内容: 在第一部分,论文将对个性化特征、个性化语音生成的实际需求以及不同个性化语音生成方法的特点和使用场景进行总结分析。首先对人的发音过程的声学机理和数学模型进行了简要介绍,在此基础上总结了不同的说话人特征参数。然后对个性化语音生成的实际需求进行分析,并对个性化语音生成方法的优缺点和适用场景进行讨论。 在第二部分,论文则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析。论文首先介绍GMM方法以及几种最重要的分支。接下去,对Abe的经典码本映射方法以及Alsan提出的STASC码本映射方法进行介绍。之后,论文将对这两种方法进行一个系统的分析比较,指出各自的优点和不足。最后,将讨论在实践中发现的GMM方法和码本映射方法存在的两个共同的问题:1.源和目标说话人对应数据的不匹配问题;2.转换频谱的过平滑问题。这些分析和讨论将指引本文探索新的说话人转换方法。 论文在第三部分,针对现有说话人转换方法存在的问题,提出了一种基于频谱弯曲的说话人转换方法,其中频谱弯曲函数是基于源说话人和目标说话人的映射共振峰参数生成。这种方法有两个优点:一是所需训练数据非常少。二是转换语音具有较高的音质。为了进一步提高与目标说话人的相似度,论文提出了一种结合频谱弯曲和单元挑选的说话人转换方法以提高频谱细节上的相似度。该方法首先进行频谱弯曲,然后将弯曲后的频谱作为目标进行单元挑选。接下去将部分弯曲后的频谱用挑选到的目标说话人的真实频谱进行替换,最后重构出转换后的语音。评测结果表明,基于本文的频谱弯曲方法获得的转换语音音质远优于其他方法,并且在音质和相似度上取得较好的平衡。评测结果同时表明结合频谱弯曲和单元挑选可以比频谱弯曲获得显著的相似度提高。 论文在第四部分,针对多语种语音合成系统遇到的实际问题,创新性地利用语音合成模型自适应和说话人转换方法相结合的个性化语音生成实现多语种语音合成系统。当今社会,中英文混合的文本越来越多。为了保证合成语音的自然连贯,通常要求中英文混合的文本内容用一个声音合成出来。然而,由于很多中文发音人的英文并不专业,直接用这种不专业的英文训练出来的模型合成的英文听起来会很不自然。这里,我们提出使用个性化语音生成方法借助一个英文母语发音人的模型,以获得更自然的中文说话人音色的英文合成语音。在使用最大似然语音合成模型自适应修改频谱模型的同时,我们利用说话人转换的韵律调整对韵律模型进行修改以获得更自然的合成韵律。评测结果表明,这种方法可以得到比其他方法更为自然的合成语音和一致的中英文音色。值得一提的是,该系统已被应用于2010年上海世博会官方网站,以帮助弱视人士聆听网站内容。 第五部分将对本文进行总结,并对下一步的工作进行展望。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 杜守富,詹永照;说话人语音改变技术研究与实现[J];计算机工程;2004年12期
2 俞一彪;曾道建;姜莹;;采用独立说话人模型的语音转换[J];声学学报;2012年03期
3 马勇;鲍长春;;基于高层信息特征的重叠语音检测[J];清华大学学报(自然科学版);2017年01期
4 付雯婷;赵俊华;;权力感知与语音情绪识别的关系[J];现代交际;2021年24期
5 张雄伟;李嘉康;孙蒙;郑琳琳;;语音欺骗检测方法的研究现状及展望[J];数据采集与处理;2020年05期
6 高俊峰;陈俊国;;基于Style-CycleGAN-VC的非平行语料下的语音转换[J];计算机应用与软件;2021年09期
7 曲海红;王倩;;播音情韵语音中情感、呼吸与语音表现的关系[J];现代传播(中国传媒大学学报);2014年08期
8 侯丽敏;邓德春;王朔中;;利用语音非线性特征改进说话人识别的性能[J];模式识别与人工智能;2006年06期
9 陶建华;傅睿博;易江燕;王成龙;汪涛;;语音伪造与鉴伪的发展与挑战[J];信息安全学报;2020年02期
10 李波,王成友,蔡宣平,唐朝京,张尔扬;语音转换及相关技术综述[J];通信学报;2004年05期
11 王铮;傅山;;基于改进身份向量提取的短语音说话人确认[J];小型微型计算机系统;2019年11期
12 陈颖;肖仲喆;;离散标签与维度空间结合的语音数据库设计[J];声学技术;2018年04期
13 符彬;;基于说话人语音判定性别在油田的应用[J];石化技术;2017年09期
14 张玲华;姚绍芹;解伟超;;基于自适应粒子群优化径向基函数神经网络的语音转换[J];数据采集与处理;2015年02期
15 宋鹏;王浩;赵力;;采用模型自适应的语音转换方法[J];信号处理;2013年10期
16 王宁敏;语音人身分析鉴定初探[J];人民检察;2005年10期
中国重要会议论文全文数据库 前20条
1 马勇;鲍长春;;基于高层信息特征的重叠语音检测[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
2 杨明浩;;说话人无关的语音驱动发音可视化[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
3 张少飞;谢磊;明怀平;黄东延;;基于实例化的语音转换[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
4 李冰锋;谢磊;朱鹏程;樊博;;语音驱动虚拟说话人的自然头动生成[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
5 倪素萍;张建平;颜永红;吕士楠;;语音音色变换的现有技术分析[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
6 陶建华;康永国;;情感语音韵律自动生成方法的研究[A];中国声学学会2006年全国声学学术会议论文集[C];2006年
7 郑玉玲;;试论语音声学参数[A];第九届中国语音学学术会议论文集[C];2010年
8 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
9 徐小峰;俞一彪;;基于说话人独立建模的语音转换系统研究[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
10 郑秋豫;;神经语言学与语音工程[A];第六届全国人机语音通讯学术会议论文集[C];2001年
11 莫锦贤;马常楼;;文本文件转换成语音文件及其合成输出[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年
12 崔景旭;张红兵;;语音图谱的“红移”现象[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
13 欧贵文;邓英;;基于说话人的对话语音分割[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
14 张世磊;姜洪臣;张树武;徐波;;广播语音的说话人切分聚类算法[A];第八届全国人机语音通讯学术会议论文集[C];2005年
15 江源富;黄泰翼;;一种基于词的统计属性模型的语音-文本转换方法[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年
16 赵海君;曹辉;;基于支持向量机的说话人的语音分类率研究[A];第三届上海——西安声学学会学术会议论文集[C];2013年
17 王薇;杨震;;利用动态特征的语音转换系统性能研究[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年
18 周洁;;基于高斯混合模型的情感语音转换[A];2011'中国西部声学学术交流会论文集[C];2011年
19 石锋;;语音格局的分析方法[A];第六届全国现代语音学学术会议论文集(上)[C];2003年
20 段成;;语用学视角下的语音隐喻[A];外国语文论丛(第2辑)[C];2009年
中国博士学位论文全文数据库 前20条
1 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
2 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年
3 谢怡宁;基于稀疏编码的鲁棒说话人识别方法研究[D];哈尔滨理工大学;2016年
4 李威;多人会话语音中的说话人角色分析[D];华南理工大学;2015年
5 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
6 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年
7 张希翔;面向语音环境的情感补偿推荐模型及方法研究[D];湖南大学;2017年
8 张静;昆曲语音体系研究[D];上海戏剧学院;2020年
9 张景宣;序列到序列的语音生成声学模型研究[D];中国科学技术大学;2021年
10 柳春;甘肃临夏方言回腔语音格局研究[D];西北民族大学;2010年
11 潘欣裕;谎言语音检测分析研究[D];苏州大学;2016年
12 李光泽;中国青少年英语学习者语音加工技能与阅读能力的关系研究[D];广东外语外贸大学;2009年
13 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
14 田立斌;语音通信质量客观评价、有效接收及错误恢复算法研究[D];华南理工大学;2004年
15 钟智翔;论缅语语音的历史分期与历史发展[D];中国人民解放军外国语学院;2007年
16 赖布尔(Muhammad Nabeel Talib);语义支持的一种面向盲人使用者的电子商务语音浏览方法研究[D];华中科技大学;2011年
17 玄成君;基于语音频率特性抑制音素影响的说话人特征提取[D];天津大学;2014年
18 纪翔;语音智能助手的评测框架[D];清华大学;2018年
19 吕声;说话人转换方法的研究[D];华南理工大学;2004年
20 陈华伟;语音通信中音质客观评价研究[D];西南交通大学;2007年
中国硕士学位论文全文数据库 前20条
1 程利;说话人语音转换技术研究[D];武汉纺织大学;2012年
2 曾道建;基于独立说话人模型的语音转换[D];苏州大学;2011年
3 刘大鹏;会话语音中说话人识别的研究[D];重庆大学;2007年
4 蒋博;特定目标说话人的语音转换系统设计[D];电子科技大学;2015年
5 潘渊;基于分类映射的非并行语料语音转换[D];苏州大学;2011年
6 赵光赢;基于深度学习的藏语语音转换的研究[D];西北师范大学;2020年
7 朱春雷;优化自适应非平行训练语音转换算法研究[D];苏州大学;2013年
8 唐郅;语音驱动虚拟说话人研究[D];西南交通大学;2017年
9 毕庆刚;语音转换中音段特征的建模与转换的研究[D];南京邮电大学;2011年
10 陈莹;基于特征分离的任意说话人语音转换算法设计与实现[D];华南理工大学;2020年
11 付亚芹;基于短语音的说话人识别方法研究与实现[D];重庆邮电大学;2020年
12 赵玲丽;基于高斯混合模型的语音转换技术研究[D];南京邮电大学;2011年
13 叶伟;超帧特征空间下基于深度置信网络的语音转换[D];苏州大学;2016年
14 车滢霞;约束条件下的结构化统计声学模型及非平行语料语音转换[D];苏州大学;2015年
15 李清华;语音转换技术研究及实现[D];湖南师范大学;2015年
16 肖星星;短时语音说话人识别方法及应用[D];复旦大学;2012年
17 苏悦;多源语音的自动切分与聚类方法研究与实现[D];西安工业大学;2021年
18 李婷;基于生成对抗网络的语音转换系统研究[D];天津大学;2019年
19 李金中;多参数驱动的年龄语音转换系统[D];中国科学技术大学;2015年
20 李力;采用超音段韵律特征联合短时频谱的语音转换[D];苏州大学;2012年
中国重要报纸全文数据库 前20条
1 本报记者 李祺瑶 刘冕;先声夺人[N];北京日报;2021年
2 ;IBM的语音解决方案[N];中国计算机报;2001年
3 本报记者;声讯信息:技术之心随“声”而动[N];安徽经济报;2021年
4 本报记者 曹术华 陈友梅;语音互联再造Internet[N];中国计算机报;2001年
5 《网络世界》记者 李夏艳;“语音云”开启移动互联语音时代[N];网络世界;2012年
6 本报记者 广鑫业;发展语音产业 关键在创新[N];安徽经济报;2013年
7 本报见习记者 程唯珈;寻求智能时代的语音空间[N];中国科学报;2019年
8 本报记者 韩鑫;突破核心技术 做强语音产业[N];人民日报;2022年
9 记者 刘娟 胡林果;微信也有假的,会盗取机主语音诈骗[N];新华每日电讯;2019年
10 本报记者 赵昂;语音社交平台会是新风口吗?[N];工人日报;2021年
11 中青报·中青网记者 周易;超八成受访者体验过语音交友[N];中国青年报;2020年
12 记者 刘霞;新设备可将大脑信号直接转换为语音[N];科技日报;2019年
13 南方日报记者 许隽 叶丹;语音助手新升级:无需反复唤醒,可连续对话[N];南方日报;2019年
14 本报记者 许政 通讯员 邱雨森;18岁男子利用语音包秒变“可爱萌妹”大肆行骗[N];人民公安报;2019年
15 本报见习记者 王彤旭;“黑灰产”聚集 语音社交乱象知多少[N];中国商报;2019年
16 本报记者 孙佳薇;创办“的士语音e支部”的热心“的哥”[N];黑龙江日报;2019年
17 本报赴合肥特派记者 刘扬;在世界声博会体验AI黑科技[N];环球时报;2019年
18 IT时报记者 李丹琦;同学发来微信语音借钱,别轻信![N];IT时报;2019年
19 证券时报记者 胡飞军;消费金融行业首现“语音催款”机器人[N];证券时报;2018年
20 本报记者 任翀;语音秒转文字很方便 自有社交圈子待建立[N];解放日报;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978