收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

个性化语音生成研究

双志伟  
【摘要】:个性化语音生成是指生成具有特定说话人特征的语音。个性化语音生成的应用非常广泛,比如可以改变语音合成系统的语音以提供个性化的合成语音,或在语音聊天、在线游戏中隐藏说话人的真实身份,也可以在多媒体彩信中模仿他人以达到娱乐的效果等。目前最常用的个性化语音生成方法有两种:一是说话人转换方法二是语音合成模型自适应方法。两种方法有着各自的优缺点,适用于不同的应用场合。本文对这两种方法的特点和联系进行探讨,针对不同方法存在的问题和应用的实际需求进行改进,并通过系统评测验证了改进的效果。论文包括五部分内容: 在第一部分,论文将对个性化特征、个性化语音生成的实际需求以及不同个性化语音生成方法的特点和使用场景进行总结分析。首先对人的发音过程的声学机理和数学模型进行了简要介绍,在此基础上总结了不同的说话人特征参数。然后对个性化语音生成的实际需求进行分析,并对个性化语音生成方法的优缺点和适用场景进行讨论。 在第二部分,论文则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析。论文首先介绍GMM方法以及几种最重要的分支。接下去,对Abe的经典码本映射方法以及Alsan提出的STASC码本映射方法进行介绍。之后,论文将对这两种方法进行一个系统的分析比较,指出各自的优点和不足。最后,将讨论在实践中发现的GMM方法和码本映射方法存在的两个共同的问题:1.源和目标说话人对应数据的不匹配问题;2.转换频谱的过平滑问题。这些分析和讨论将指引本文探索新的说话人转换方法。 论文在第三部分,针对现有说话人转换方法存在的问题,提出了一种基于频谱弯曲的说话人转换方法,其中频谱弯曲函数是基于源说话人和目标说话人的映射共振峰参数生成。这种方法有两个优点:一是所需训练数据非常少。二是转换语音具有较高的音质。为了进一步提高与目标说话人的相似度,论文提出了一种结合频谱弯曲和单元挑选的说话人转换方法以提高频谱细节上的相似度。该方法首先进行频谱弯曲,然后将弯曲后的频谱作为目标进行单元挑选。接下去将部分弯曲后的频谱用挑选到的目标说话人的真实频谱进行替换,最后重构出转换后的语音。评测结果表明,基于本文的频谱弯曲方法获得的转换语音音质远优于其他方法,并且在音质和相似度上取得较好的平衡。评测结果同时表明结合频谱弯曲和单元挑选可以比频谱弯曲获得显著的相似度提高。 论文在第四部分,针对多语种语音合成系统遇到的实际问题,创新性地利用语音合成模型自适应和说话人转换方法相结合的个性化语音生成实现多语种语音合成系统。当今社会,中英文混合的文本越来越多。为了保证合成语音的自然连贯,通常要求中英文混合的文本内容用一个声音合成出来。然而,由于很多中文发音人的英文并不专业,直接用这种不专业的英文训练出来的模型合成的英文听起来会很不自然。这里,我们提出使用个性化语音生成方法借助一个英文母语发音人的模型,以获得更自然的中文说话人音色的英文合成语音。在使用最大似然语音合成模型自适应修改频谱模型的同时,我们利用说话人转换的韵律调整对韵律模型进行修改以获得更自然的合成韵律。评测结果表明,这种方法可以得到比其他方法更为自然的合成语音和一致的中英文音色。值得一提的是,该系统已被应用于2010年上海世博会官方网站,以帮助弱视人士聆听网站内容。 第五部分将对本文进行总结,并对下一步的工作进行展望。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李灵光;;一种时频结合的抗噪性端点检测算法[J];计算机与现代化;2011年08期
2 王莹;;小波分析在语音端点检测中的应用[J];科技信息;2011年18期
3 李昱;;《四书章句集注》标点举误[J];古典文献研究;2003年00期
4 吕晶晶;陈娟;张培;马艳娥;;基于VQ的语音识别技术研究[J];伺服控制;2011年04期
5 姚红玉;刘粤钳;;梅尔似韵律特征在播音风格标识中的应用[J];统计与信息论坛;2011年06期
6 孙晶;凌云峰;;语音识别系统技术及市场前景探析[J];科技资讯;2011年20期
7 李宁;徐守坤;马正华;石林;;自适应语音识别算法仿真研究[J];计算机仿真;2011年08期
8 木合塔尔·沙地克;李晓;布合力齐姑丽·瓦斯力;;维吾尔语广播新闻敏感词检索系统的研究[J];中文信息学报;2011年04期
9 黄燕;;商务访谈节目中的会话修正分析[J];科教导刊(中旬刊);2011年08期
10 曾瑜薇;胡芳;;英语论文摘要中的语用含糊[J];中国科技期刊研究;2005年06期
11 何朝霞;刘凯;;基于随机共振的基音周期估计方法[J];电脑知识与技术;2011年13期
12 郭水旺;李白燕;;过完备ICA算法在语音信号提取中的应用[J];计算机系统应用;2011年07期
13 熊涛;王进;毛浩然;;电视访谈中主持人的站位调整及传播效果[J];东南传播;2011年07期
14 余姗姗;张亚琼;;语音识别的自适应研究[J];福建电脑;2011年06期
15 罗元;黄璜;张毅;胡章芳;;一种新的语音端点检测方法及在智能轮椅人机交互中的应用[J];重庆邮电大学学报(自然科学版);2011年04期
16 何佳若;曾向阳;;声信号的可视化特征提取方法[J];电声技术;2011年07期
17 陈迪中;;是“指使”,不是“指示”[J];咬文嚼字;2011年09期
18 孙颖;张雪英;;情感语音特征对语料库依赖性的统计分析[J];噪声与振动控制;2011年04期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
2 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
3 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
4 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
5 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
6 刘晓星;李明;韩疆;潘接林;张建平;吕萍;颜永红;;网络信息安全中的说话人检测系统[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
7 蒋冬梅;赵荣椿;;基于尺度描述的说话人归一化语音特征[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
8 周绍良;;修绠山房梓《宣和遗事》跋[A];水浒争鸣(第一辑)[C];1982年
9 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 王洪海;刘刚;郭军;;基于二次弯折函数的频率弯折方法[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
2 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
3 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
4 赵腊生;语音情感特征提取与识别方法研究[D];大连理工大学;2010年
5 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
6 杨于村;基于公众移动通信网的端到端加密语音传输技术研究[D];华南理工大学;2009年
7 周文君;舰船VDR人声识别技术研究[D];哈尔滨工程大学;2009年
8 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
9 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年
10 闵星雅;助动词“能”和“会”的认知研究[D];上海师范大学;2007年
中国硕士学位论文全文数据库 前10条
1 展领;蓄意模仿说话人语音中特征参数的研究[D];桂林电子科技大学;2010年
2 凌锦雯;基于多特征的说话人分割与聚类的研究[D];中国科学技术大学;2011年
3 张琪;复杂环境下特定说话人的语音识别研究[D];武汉纺织大学;2012年
4 赵洪刚;基于对话型语音的说话人在线识别技术研究[D];黑龙江大学;2010年
5 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年
6 陈黎;基于SVM和GMM的说话人辨识方法研究[D];武汉理工大学;2011年
7 默盼;论宋代说话人[D];渤海大学;2012年
8 李向格;关于“レてもぃぃ”与“レてぃぃ”的意义分析[D];吉林大学;2012年
9 陈芝;基于人工神经网络模型的说话人转换算法研究[D];南京邮电大学;2011年
10 刘金福;基于关键词检出的说话人自适应技术研究[D];解放军信息工程大学;2004年
中国重要报纸全文数据库 前10条
1 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
2 ;美科学家要研制无声感应“手机”[N];新华每日电讯;2005年
3 张申 蔡莲红;富于表情的虚拟人脸合成[N];计算机世界;2007年
4 中国科学院自动化研究所模式识别国家重点实验室 辛乐陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年
5 曹文彪;生气与高致[N];文学报;2006年
6 中国科学院自动化研究所模式识别国家重点实验室 周密陶建华;与电脑面谈[N];计算机世界;2007年
7 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
8 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
9 刘喜喜;让视频会议多一些人工智能[N];中国计算机报;2008年
10 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978