收藏本站
《华南理工大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

说话人转换方法的研究

吕声  
【摘要】:说话人转换就是要将一个说话人(源说话人)的语音信号进行转换,使得听起来像另一个说话人(目标说话人)的语音信号的技术。说话人转换是语音信号处理领域的一个较新的分支,它的研究对语音分析,语音编码,语音合成,语音增强,语音识别等语音信号处理的其它各个领域有重要的促进作用。本文分别对同语种的说话人转换和跨语种的说话人转换进行了研究,主要内容包括: 1.提出了一种改进的谱包络转换方法,作为说话人转换系统的重要组成部分,也是与其它说话人转换系统进行性能比较的一个基本标准。该方法利用一个基于高斯混合模型的转换函数,通过转换线性预测模型的线谱频率参数,实现谱包络的转换。语音信号的分析合成采用线性预测模型,线性预测模型是一种在技术上比较成熟的语音模型,大部分的语音编码器如CELP、MELP 等都是基于此模型,所以在需要减小语音库的存贮空间时有较大的优势。考虑了说话人的语音都很自然的情况,对说话人的发音没有任何限制,训练和转换都是用语调等韵律特征都很自然的语音。由于在训练过程中,去除了时间对齐不准确的训练数据,提高了高斯混合模型训练的效果,并且在转换过程中对谱包络进行平滑,保证了转换的有效性。非正式的听觉测试表明转换后的语音能明显地听出来是目标说话人,并且可懂度和自然度都比较高。客观评价标准的测试表明经过改进后,性能比以往的系统要好。 2.提出一种改进的残差预测的方法,并由此构成一个高质量的说话人转换系统。残差预测是基于一个GMM 的分类器和目标说话人的残差码本,系统必须利用目标说话人的残差信号进行训练。在完成目标说话人的残差预测系统后,与谱包络转换系统共同构成最终的说话人转换系统。非正式的听觉测试表明转换后的语音很明显地听出是目标说话人,但保留了源说话人的韵律特征。转换语音的质量也比较高,只有一些LPC 处理中典型的嗡嗡声。 3.提出一种基于音素的说话人转换方法。在该方法中,将说话人的参数空间比较明确地按照音素来划分,再用GMM 模型来为每个音素建立更细致的模型。这样不仅可以避免DTW 时间对齐的不准确对转换函数训练的影响,而且可以使用源说话人和目标说话人的不同语音来进行训练。通过进行客观评价标准的测试,基于音素的说话人转换频谱失真的性能指标要优于基于GMM 模型的方法。 4.对跨语种的说话人转换进行了初步的研究。首先比较了汉语和英语音素,可以发现还是有一部分英语和汉语的音素是基本相同的,也有一部分是不相同的。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TN912.3

手机知网App
【引证文献】
中国重要会议论文全文数据库 前2条
1 王薇;杨震;;基于GMM的语音转换系统性能研究[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 王薇;杨震;;利用动态特征的语音转换系统性能研究[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年
中国硕士学位论文全文数据库 前10条
1 陈芝;基于人工神经网络模型的说话人转换算法研究[D];南京邮电大学;2011年
2 潘渊;基于分类映射的非并行语料语音转换[D];苏州大学;2011年
3 曾道建;基于独立说话人模型的语音转换[D];苏州大学;2011年
4 卢永红;基于ARM9的语音转换技术研究与实现[D];大连理工大学;2006年
5 刘大鹏;会话语音中说话人识别的研究[D];重庆大学;2007年
6 颜祥;基于韵律联合短时谱的说话人变换[D];苏州大学;2007年
7 刘建新;汉语耳语音转换为正常语音的共振峰结构研究[D];苏州大学;2007年
8 杨阳;汉语语音转换系统的研究[D];北京交通大学;2008年
9 王叶斌;语音共振峰轨迹跟踪的算法研究及其应用[D];苏州大学;2008年
10 龚呈卉;汉语耳语音声道特性分析及其在汉语耳语感知研究中的应用[D];苏州大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 郭丙华;;基于计算机网络的智能可视对讲监控系统设计[J];安防科技;2006年12期
2 刘习义;;基于SIP协议VoIP软终端的研究与实现[J];信息安全与技术;2011年10期
3 刘丽萍,李彩霞;卷积码UEP方案在分等级传输中的应用[J];保定师范专科学校学报;2004年02期
4 施俊强,池明敏;基于TMS320C54x DSKplus的实时TCM语音编解码算法的实现[J];半导体技术;2001年08期
5 曾为民,陈泳恩;迟早门在蓝牙基带中的应用及其VHDL实现[J];半导体技术;2002年01期
6 高辉华,杨莲兴;一种适用于以太网接收器的均衡器结构及其实现[J];半导体技术;2003年07期
7 陈列,颜学龙;MADBIST系统中正弦信号发生器的设计与仿真[J];半导体技术;2003年08期
8 张强;吴小帅;;S波段微型直接变频发射机[J];半导体技术;2009年08期
9 李文臣,陆彤,秦世才;关于芯片Z2000采样模式和I/Q通道倒置的探讨[J];半导体杂志;1998年04期
10 宋铁成;;“通信原理”课程双语教学的探索与实践[J];北京大学学报(哲学社会科学版);2007年S2期
中国重要会议论文全文数据库 前10条
1 刘旺锋;王硕;;基于FPGA的水下传感节点QPSK调制解调模块设计与实现[A];第二十九届中国控制会议论文集[C];2010年
2 哈聪颖;闫兆文;胡国英;王祖林;;通信网络工程实验系统二次开发实验探索与实践[A];北京高教学会实验室工作研究会2007年学术研讨会论文集[C];2007年
3 郭巧;张立伟;陆际联;;汉语语音信号的端点检测与切分[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
4 张连海;王杰锋;王炳锡;;基于语音多带激励模型的基音周期估计算法研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
5 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
6 牟峰;俞铁城;杨道淳;;新型半波语音编解码的实现[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 邹绘华;李双田;;基于频谱斜率约束的变速率语音编码算法研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
8 李灿伟;杨震;;基于DCT的有色噪声消除算法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 周珺;范京;刘惠华;;汉语语音音量和语速变化的自适应的调整[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
10 孙海;范京;刘惠华;;汉语连续语音中的单字起止点综合判别的新方法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 洪弘;基于Hilbert-Huang变换的汉语动态特征分析[D];南京大学;2010年
3 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
4 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
5 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
6 潘文宇;一种新型MRI谱仪的设计及关键技术研究[D];中国科学技术大学;2011年
7 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
8 高二中;对话电话语音的话者确认研究[D];中国科学技术大学;2011年
9 翁玮文;基于DCT的OFDM编码调制技术研究[D];北京邮电大学;2011年
10 刘健;信道编码的盲识别技术研究[D];西安电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 王春力;基于P2P的网络音频捕获与多路混音算法研究[D];山东科技大学;2010年
2 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
3 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
4 徐雯;VDR音频数据数字水印算法研究[D];哈尔滨工程大学;2010年
5 解恺;基于多载波直扩码分多址的水声通信技术研究与实现[D];哈尔滨工程大学;2010年
6 刘文飞;改进的高频RFID识读器设计与实现[D];哈尔滨工程大学;2010年
7 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
8 李海燕;基于EMD的直扩通信窄带干扰自适应抑制研究[D];哈尔滨工程大学;2010年
9 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年
10 苏新明;Turbo码译码算法与交织器的研究[D];辽宁工程技术大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张玲华,杨震,郑宝玉;基于HMM的说话人辨认系统及其改进[J];电讯技术;2003年06期
2 张力;MATLAB在语音信号处理辅助教学中的应用[J];电气电子教学学报;2005年02期
3 李力利;数字音频变调算法的研究[J];电声技术;2003年06期
4 沙丹青,栗学丽,徐柏龄;耳语音声调特征的研究[J];电声技术;2003年11期
5 吕声,尹俊勋,黄建成;基于高斯混合模型和残差预测的说话人转换系统[J];电声技术;2004年06期
6 夏菁,尹俊勋,黄建成,黄锋;基于正弦加噪声模型的说话人转换方法[J];电声技术;2005年02期
7 李虎生,刘加,刘润生;语音识别说话人自适应研究现状及发展趋势[J];电子学报;2003年01期
8 左国玉,刘文举,阮晓钢;声音转换技术的研究与进展[J];电子学报;2004年07期
9 刘文举,孙兵,钟秋海;基于说话人分类技术的分级说话人识别研究[J];电子学报;2005年07期
10 杨震,毕厚杰;一种新的用于语音主观质量评价的谱失真参数[J];电子与信息学报;2001年07期
中国博士学位论文全文数据库 前3条
1 姚剑敏;粒子滤波跟踪方法研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2005年
2 李波;语音转换的关键技术研究[D];国防科学技术大学;2005年
3 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前7条
1 王波;电话信道文本无关说话人识别[D];中国人民解放军信息工程大学;2002年
2 祝嘉;基于GMM的连接词语音识别及大词汇表系统的语言建模[D];苏州大学;2006年
3 李娟娟;G.729A语音压缩算法的优化及DSP实现[D];苏州大学;2006年
4 戴丁樟;粒子滤波算法研究及其在目标跟踪中的应用[D];哈尔滨工业大学;2006年
5 卢永红;基于ARM9的语音转换技术研究与实现[D];大连理工大学;2006年
6 刘建新;汉语耳语音转换为正常语音的共振峰结构研究[D];苏州大学;2007年
7 杨阳;汉语语音转换系统的研究[D];北京交通大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 陈仁林;郭中华;朱兆伟;;基于BP神经网络的说话人识别技术的实现[J];智能计算机与应用;2012年02期
中国硕士学位论文全文数据库 前10条
1 银兵;基于μ’nSP~(TM)处理器的嵌入式语音控制技术研究[D];河南理工大学;2010年
2 周晓一;基于遗传算法的计算机辅助语音处理研究[D];山东师范大学;2011年
3 马瑞云;基于谱包络和超音段韵律的语音转换技术研究[D];南京邮电大学;2011年
4 洪沣;基于嵌入式Linux语音合成关键技术的研究与实现[D];哈尔滨工程大学;2011年
5 潘渊;基于分类映射的非并行语料语音转换[D];苏州大学;2011年
6 顾晓江;不匹配信道下耳语音说话人识别研究[D];苏州大学;2011年
7 曾道建;基于独立说话人模型的语音转换[D];苏州大学;2011年
8 徐敏;基于MELP模型的汉语耳语音转换为正常音的实现[D];苏州大学;2007年
9 王叶斌;语音共振峰轨迹跟踪的算法研究及其应用[D];苏州大学;2008年
10 丁耀娥;基于VQ模型和BP网络的高自然度语音转换[D];苏州大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 吕丹桔;Ch.Plahl;B.Hoffmeister;;大词汇连续汉语语音的MLP声学特征的研究[J];电脑知识与技术;2010年13期
2 胡正平;;基于高斯混合模型的多区域并行增长图像分割算法[J];光学技术;2006年06期
3 石如亮;王波;李弼程;高新建;;低速率信道环境下鲁棒的说话人确认[J];计算机应用;2007年04期
4 肖涵;李友荣;吕勇;;基于四分位偏差分形维与高斯混合模型的故障识别算法研究[J];振动工程学报;2008年01期
5 王岐学;钱盛友;赵新民;;基于差分特征和高斯混合模型的湖南方言识别[J];计算机工程与应用;2009年35期
6 谢从华;宋余庆;陈健美;常晋义;;医学图像的混合模型成份数估计[J];计算机科学;2010年10期
7 刘大鹏;尾关和彦;朱庆生;;添加音素持续时间信息到频谱模型的说话人辨认研究[J];计算机技术与发展;2007年05期
8 王明芬;李翠华;余强力;;基于融合邻域信息的海面运动目标检测[J];厦门大学学报(自然科学版);2007年05期
9 王常亮;;基于聚类的自动颜色传输[J];计算机工程与应用;2007年25期
10 牛滨;孔令志;罗森林;潘丽敏;郭亮;;基于MFCC和GMM的个性音乐推荐模型[J];北京理工大学学报;2009年04期
中国重要会议论文全文数据库 前10条
1 瞿俊;姜青山;董槐林;;基于高斯混合模型的层次聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 应冬文;颜永红;付强;国雁萌;;基于约束高斯混合模型的噪声功率谱估计[A];2010年通信理论与信号处理学术年会论文集[C];2010年
3 刘明辉;黄中伟;;基于GMM和VOT的音素发音错误检测[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 张雪青;胡贝贝;杨浩;郭勤;崔大祥;;基于金字塔连接与高斯混合模型算法的量子点荧光芯片检测系统的设计[A];中国光学学会2011年学术大会摘要集[C];2011年
5 蔡念;郭文婷;陈世文;潘晴;;融合高斯混合模型和小波变换的运动目标检测[A];第十五届全国图象图形学学术会议论文集[C];2010年
6 安丽丽;梁维谦;吴延年;;基于不同音素概率分布的发音质量分数映射方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 刘李漫;陶文兵;田金文;;融合多高斯混合模型与Graph Cuts优化技术的目标自动检测方法[A];第十五届全国图象图形学学术会议论文集[C];2010年
8 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
9 卓群;欧贵文;;基于模糊高斯混合模型的说话人识别算法的一些改进[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 王莹;景新幸;杨海燕;;改进EM算法的高斯混合模型在说话人识别中的应用[A];2008年全国声学学术会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 北京师范大学教育科学研究所 郑一丹;三位一体教学法:为学英语快速奠基[N];中国教育报;2007年
2 叶向荣 郑民军;大破语音关[N];中国教育报;2001年
3 梅容;耐心纠正孩子的口吃[N];中国石油报;2003年
4 郑玉玲;基于EPG的普通话语音研究[N];中国社会科学院院报;2004年
5 金寅;现代汉语中辅音能否自成音节及其他[N];语言文字周报;2006年
6 何广见;取人名应兼顾语音美[N];语言文字周报;2007年
7 中关村在线提供;2003年7月用户最喜爱的MP3调查报告[N];电子资讯时报;2003年
8 海童;孩子因何说话不清[N];中国中医药报;2006年
9 泰州师专 何广见;汉语拼音字母i表示的音位及相关变体的发音[N];语言文字周报;2007年
10 北京大学教授 苏培成;周有光对中国语文现代化的贡献[N];中国教育报;2005年
中国博士学位论文全文数据库 前10条
1 吕声;说话人转换方法的研究[D];华南理工大学;2004年
2 姚志均;目标跟踪系统中的鲁棒性研究[D];华中科技大学;2012年
3 陈雪峰;图像高斯混合模型的判别学习方法[D];北京理工大学;2009年
4 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
5 贾俊杰;空间数据挖掘中若干关键技术研究[D];长安大学;2009年
6 张原;基于高斯混合模型的无线传感器网络节点定位算法的研究[D];吉林大学;2010年
7 肖涵;基于高斯混合模型与子空间技术的故障识别研究[D];武汉科技大学;2007年
8 林春漪;基于混合贝叶斯网络的医学图像语义建模及其检索的研究[D];华南理工大学;2006年
9 王传旭;视频图像中人体目标的检测方法研究[D];中国海洋大学;2007年
10 李志圣;单类中心学习及其在二元关系抽取中的应用[D];天津大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙峰;基于高斯混合模型的语种识别技术[D];哈尔滨工程大学;2006年
2 李莉;应用神经网络建立金融预测分析系统[D];武汉大学;2005年
3 丁爱明;基于MFCC和GMM的说话人识别系统研究[D];河海大学;2006年
4 丛菡菡;基于支持相量机的稳键说话人识别[D];电子科技大学;2008年
5 姜可梅;检测代替分类的脑机接口研究[D];燕山大学;2011年
6 史燕;基于小波变换的图像检索技术研究[D];西北大学;2006年
7 吴杰;基于高斯混合模型的话者识别系统的研究[D];吉林大学;2008年
8 吴华玉;抗噪声说话人识别技术研究[D];南京师范大学;2008年
9 丁国梁;耳语音说话人识别的研究[D];苏州大学;2009年
10 庄文;应用VQ和GMM的说话人识别系统研究[D];西华大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026