收藏本站
《南开大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

人眼驱动语音合成的若干关键技术研究

高裴裴  
【摘要】:伴随信息技术、人工智能的不断发展,语音合成在人机交互技术中受到越来越多的重视。但目前语音合成的主要问题在于合成的自然度、表现力不够,还不能接近自然语言的标准;同时语音合成的人机交互方式较为单调,缺乏使用者主观驱动的机制。 本文首先对语音合成的历史发展进行了介绍,并总结了语音合成的一般过程,进而指出影响合成效果的重要环节是语音合成时的韵律生成模块。在深入研究的基础上,认为一方面可以引入新的人机交互手段来丰富语音合成的形式,提出了利用阅读时人的眼睛活动规律,主观控制驱动韵律生成;另一方面又充分利用机器学习的方法挖掘韵律规则,建立模拟精度更高的韵律模型。 时长模型和重音模型是韵律生成要解决的关键问题。在时长韵律模型方面,提出了用阅读时的眼动注视时长,对合成语音的发音时长进行同步控制的思路。人的眼动阅读过程是一个综合、多因素交叉作用的复杂过程,如注视、眼跳、回视等;且语音编码和眼动控制是两个并行的独立系统。因此研究人眼驱动的“眼动时长”,就要权衡各种因素的影响,获取人眼注视的时长规律,以此作为眼动时长建模依据。在重音韵律模型方面,提出ELM极限学习机和半监督SELM机器学习方法用于重音预测,并通过实验进行了比对验证。本文还对语义重音的预测进行了探索性研究,由于语义重音取决于人的主观意识表达,本文尝试统计分析人的眼动信号与重音的联系,实验结果表明眼动注视时长和注视次数等特征和情境语义中的重音级别有相关性。 围绕以上几个方面,本文的主要工作和创新点如下: 1.提出利用人阅读时的眼动信号来驱动语音合成的方法,将眼动控制引入到语音合成的人机交互中。该方法对丰富人机交互的形式,或者残疾人辅助语音交互方面都有广泛的现实意义和应用前景。 基于对现有的三种眼动控制模型的分析和内隐韵律阅读的特点,着重剖析了眼动阅读过程中,对文字的语音加工系统和眼动控制系统的相对独立性;证明了在文本熟悉度一致的条件下,阅读的眼动注视时长窗口和内部语音的发音时长窗口的同步关系;在此基础上提出了基于汉语层级韵律结构的眼动时长模型。该模型改变了以往对语音时长采用机器学习、概率预测的方法,倾向于捕获阅读者真正的内部阅读韵律,合成带有个性化节奏的语音。 2.提出单隐含层前馈神经网络ELM极限学习机用于汉语重音预测。 ELM极限学习机继承了传统神经网络泛化性能好的特点,使用单隐含层连接输入和输出权值矩阵。该算法可以适应任意输入权值和偏置向量,具有更强的泛化能力和更低的算法复杂度。实验分别使用ELM极限学习机和以RBF为核函数的SVM两种机器学习算法进行了汉语重音预测实验;对比了重音预测的正确率和算法执行时间;实验数据表明,该神经网络模型在保证预测精确度的基础上大大提高了重音分类学习和预测的速度,证明了该算法的有效性。 3.提出改进的基于半监督策略的SELM极限学习机模型,并且将其用于汉语重音预测。 SELM适用于训练样本集中只存在少量的已标注样本的情况。该算法在已标注样本学习基础上,对未标记样本进行置信度阈值检验。检验采用交换训练集和预测集的方法,最终确定高置信度的扩充样本。实验使用SELM算法在未标注样本倍增的前提下进行重音预测,证明了SELM算法在少量标注样本的基础上对未标注样本的分类仍具有较高的正确率和执行效率。该半监督策略的机器学习算法为在减少样本标注工作量的前提下获得大量样本的高效率预测提供了一种有效的解决办法。 4.提出以眼动注视特征进行语义重音预测的探索性研究。 本文以一组眼动重音预测实验,对使用眼动数据预测情境语料中的语义重音进行了探讨,并使用三种神经网络模型对眼动实验样本进行分类实验。结果表明,眼动注视时长和注视次数等特征和情境语义中的重音级别有相关性。 5.引入基于语调叠加的Fujisaki模型的基频建模方法,讨论了基频曲线生成和韵律修改。 本文概述了该建模方法的执行流程。即以语调叠加的基频参数化模型——Fujisaki模型为原型,在合成时长归一化的原始语音基础上,总结眼动时长模型的韵律生成和重音预测的结果,提出一种改进的语音合成模型:ED_Fujisaki模型,该模型可以合成带有阅读者主观韵律表达的个性化韵律。
【学位授予单位】:南开大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TN912.33

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 ;语音合成系统的关键技术与应用实例[J];杭州科技;2000年02期
2 倪崇嘉;刘文举;徐波;;基于互补模型的汉语重音检测[J];计算机工程;2011年23期
3 胡伟湘,董宏辉,陶建华,黄泰翼;汉语朗读话语重音自动分类研究[J];中文信息学报;2005年06期
4 朱维彬;;支持重音合成的汉语语音合成系统[J];中文信息学报;2007年03期
5 李雅;潘诗锋;陶建华;;采用重音调整模型的HMM语音合成系统[J];清华大学学报(自然科学版);2011年09期
6 王韫佳,初敏,贺琳,冯勇强;连续话语中双音节韵律词的重音感知[J];声学学报;2003年06期
7 张家騄;论语音技术的发展[J];声学学报;2004年03期
8 邵艳秋;韩纪庆;刘挺;赵永贞;;自然风格言语的汉语句重音自动判别研究[J];声学学报;2006年03期
9 仲晓波,杨玉芳;汉语普通话句子重音在时长方面的声学表现[J];心理学报;2003年02期
10 沈炯;;汉语语调模型刍议[J];语文研究;1992年04期
中国博士学位论文全文数据库 前2条
1 王丽红;中文阅读知觉广度的眼动研究[D];天津师范大学;2011年
2 唐晓亮;基于神经网络的半监督学习方法研究[D];大连理工大学;2009年
中国硕士学位论文全文数据库 前3条
1 易星;半监督学习若干问题的研究[D];清华大学;2004年
2 任蕊;基于Fujisaki模型的情感语音信号分析与合成[D];北京交通大学;2008年
3 曾一鸣;情感语音合成的研究和系统实现[D];上海交通大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 张小燕;普通话上声变调与轻声分析[J];阿坝师范高等专科学校学报;2004年02期
2 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
3 张聪;;储粮害虫声信号编解码系统的设计与实现[J];安徽农业科学;2006年21期
4 胡建;;关于音位归纳中语音相似性判定的尝试[J];安徽文学(下半月);2010年06期
5 刘倩;关于开明出版社《现代汉语》语音部分的质疑[J];鞍山师范学院学报;2002年02期
6 梁磊;;天津话与北京话轻声词的差异及其原因分析[J];保定师范专科学校学报;2007年04期
7 曾常年;动词重叠式中动词的语义虚化与发音轻化[J];北京大学学报(哲学社会科学版);2001年S1期
8 王小甫;;蒙古崛兴与政治文化[J];北京大学学报(哲学社会科学版);2009年03期
9 姜文振;试谈轻声词的辨义功能[J];北方论丛;2003年02期
10 黄英;李白乐府诗歌《蜀道难》等三首同音重复的语言风格[J];北京化工大学学报(社会科学版);2003年02期
中国重要会议论文全文数据库 前10条
1 边红昌;程德福;祁玉林;张坤;;基于DSP和ZigBee无线智能语音控制系统设计[A];第二十六届中国控制会议论文集[C];2007年
2 李雅;潘诗锋;陶建华;;采用重音调整模型的HMM语音合成系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 田业;贾珈;江建博;蔡莲红;;汉语普通话声调增强算法的研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 高莹莹;朱维彬;;NAQ与韵律特征的关系初探[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 刘博;杨鸿武;甘振业;李曼曼;孙红英;;面向藏语机读音标SAMPA-T的字音转换[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 李卫君;陈玉东;杨玉芳;吕士楠;;近体诗绝句的声学特征分析[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 卢颖超;李雅;陶建华;许小颖;;连续语流中重音标注和大规模重音语料库建设[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 王奖;阿里木·玉苏甫;刘杰;;论汉语与维吾尔语重音[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
9 李雅;潘诗锋;陶建华;;采用重音调整模型的HMM语音合成系统[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
10 卢颖超;李雅;陶建华;许小颖;;连续语流中重音标注和大规模重音语料库建设[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵洪朋;优秀散打运动员知觉预测过程认知特征与神经机制研究[D];上海体育学院;2010年
2 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
3 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
4 于辉;汉语借词音系学[D];南开大学;2010年
5 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
6 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
7 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
8 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
9 李明;面向计算机辅助诊断的胶囊内镜图像处理与分析技术研究[D];华中科技大学;2011年
10 金星;听障儿童韵律词重音的声学特征及生成特征的研究[D];华东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 杨文;词素字频对偏正词识别的影响研究[D];辽宁师范大学;2010年
2 刘晓帆;代言人信息对广告心理效果影响的眼动研究[D];辽宁师范大学;2010年
3 杨帆;三维立体画加工特点的眼动研究[D];辽宁师范大学;2010年
4 胡信奎;道路交通标志中对称结构效应的工效学研究[D];浙江理工大学;2010年
5 李茂;自闭症儿童疑问句个案研究[D];上海外国语大学;2010年
6 曹唯伟;基于拼音编码的水下语音通信发射端的设计与实现[D];哈尔滨工程大学;2010年
7 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
8 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
9 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年
10 程相晋;濮阳县方言语音研究[D];湘潭大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 熊建萍;闫国利;白学军;;高中二年级学生中文阅读知觉广度的眼动研究[J];心理与行为研究;2007年01期
2 闫国利;白学军;;汉语阅读的眼动研究[J];心理与行为研究;2007年03期
3 伏干;闫国利;;高中二年级学生双字词阅读知觉广度的眼动研究[J];心理与行为研究;2008年04期
4 杜云艳,周成虎,邵全琴,苏奋振,史忠植,叶施仁;地理案例推理及其应用[J];地理学报;2002年02期
5 周洁,赵力,邹采荣;情感语音合成的研究[J];电声技术;2005年10期
6 林茂灿 ,颜景助 ,孙国华;北京话两字组正常重音的初步实验[J];方言;1984年01期
7 杨顺安;五度字调模型在合成汉语语音中的应用[J];方言;1987年02期
8 丛爽,郑毅松,王怡雯;ART-2神经网络的改进及建模实现[J];计算机工程与应用;2002年14期
9 陈愉,张宗红,李炜,李宗葛,宋彬;PSOLA技术在汉语文-语转换系统中的应用[J];计算机工程;2000年01期
10 陈楠;贺前华;李韬;;基于听觉模型的特征在英语重音检测中的应用[J];计算机工程;2009年08期
中国重要会议论文全文数据库 前3条
1 吴宗济;;普通话语音合成中有关自然度的韵律变量问题[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
2 贺琳;吕士楠;冯勇强;初敏;钱瑶;;汉语合成语料库的韵律层级标注研究[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
3 殷治纲;;基于语料库的时长规整化研究[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 骆成凤;中国土地覆盖分类与变化监测遥感研究[D];中国科学院研究生院(遥感应用研究所);2005年
2 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
中国硕士学位论文全文数据库 前1条
1 易星;半监督学习若干问题的研究[D];清华大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 彭惠娴,崔展望;一种汉语音节型语音合成模型[J];电路与系统学报;1996年02期
2 杨庆江,谢子殿,于海英,郭明良;智能语音人体秤的设计[J];黑龙江矿业学院学报;1997年02期
3 韩丽萍,张丽红;语音应答系统的设计[J];锦州师范学院学报(自然科学版);2001年01期
4 何去非;方恒;;机器人语音接口的开发[J];芜湖职业技术学院学报;2007年04期
5 陈丽娟,刘淑英,刘书琴;MCS-51单片机用于语音合成系统[J];信息技术;1994年04期
6 唐明道;大容量可编程语音合成电路[J];电子技术;1996年07期
7 梁志强,李海洲;线性预测编码在变音长语音合成中的应用[J];华南理工大学学报(自然科学版);1998年03期
8 杜凯;计算机语音技术及其展望(上)[J];黑龙江水利科技;1998年01期
9 左岐;新型智能变送器的研制[J];仪表技术与传感器;1999年08期
10 赵晓虹,叶建明;小型电话语音查询系统的设计与实现[J];四川通信技术;2001年05期
中国重要会议论文全文数据库 前10条
1 祝韶晖;刘文举;吴玺宏;;一种新的基于匹配的语音合成基元选取算法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 杨静;孙金城;;关于录制语音合成数据库的几个问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
3 江源;朱双华;凌震华;戴礼荣;;基于HMM的单元挑选语音合成中的改进方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 易立夫;苏鹤玲;孙金城;;基于HNM算法的汉语语音合成系统[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
5 易立夫;苏鹤玲;孙金城;;基于HNM算法的汉语语音合成系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
6 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
7 陶建华;康永国;;基于多元激励的高质量语音合成声学模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 那兴宇;谢湘;匡镜明;何娅玲;;用于统计语音合成的大尺度压缩HMM的方法[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
9 那兴宇;谢湘;匡镜明;何娅玲;;一种用于统计语音合成的大尺度压缩HMM的方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 潘诗锋;陶建华;南角吉彦;德田惠一;;HMM语音合成中结合频域Delta LSP整体方差的参数生成算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国重要报纸全文数据库 前10条
1 孙晓闻;语音合成 让机器“像人一样说话”[N];中国劳动保障报;2005年
2 ;嵌入式语音合成平台[N];计算机世界;2002年
3 记者 汪永安;科大讯飞获国际英文合成大赛“六连冠”[N];安徽日报;2011年
4 刘权;语音合成融入证券客服[N];中国计算机报;2003年
5 刘羚;语音合成发挥作用[N];中国计算机报;2003年
6 李羚;多语种语音合成助力数字奥运[N];中国计算机报;2003年
7 本报记者 何进伟;语音合成露峥嵘[N];网络世界;2001年
8 李壮;陶建华 行胜于言的语音合成专家[N];中国高新技术产业导报;2007年
9 ;开放架构支持更多应用[N];中国计算机报;2004年
10 记者 吴长锋;科大讯飞英文语音合成系统获奖[N];科技日报;2006年
中国博士学位论文全文数据库 前10条
1 高裴裴;人眼驱动语音合成的若干关键技术研究[D];南开大学;2012年
2 卢恒;基于统计模型与发音错误检测的语音合成方法研究[D];中国科学技术大学;2011年
3 雷鸣;统计参数语音合成中的声学模型建模方法研究[D];中国科学技术大学;2012年
4 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年
5 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
6 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年
7 孙颖;情感语音识别与合成的研究[D];太原理工大学;2011年
8 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年
9 慕红云;新一代呼叫中心及其应用[D];铁道部科学研究院;2007年
10 黄平牧;中文TTS系统中若干关键技术研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 史水平;汉语语音合成技术的研究[D];广西大学;2004年
2 孟利青;基于DSP的中文电子阅读系统的研究[D];辽宁工程技术大学;2005年
3 党培霞;基于情感基音模板的情感语音合成[D];中南大学;2010年
4 贾建华;语音合成及语音处理[D];中南大学;2002年
5 史学晶;基于原型波形内插算法的语音问题的研究[D];北京化工大学;2004年
6 赵博;中文语音合成系统的评测方法研究[D];清华大学;2005年
7 曾一鸣;情感语音合成的研究和系统实现[D];上海交通大学;2010年
8 陈翔;基于板卡“教师家长一线通系统”研究和实现[D];西南交通大学;2005年
9 杜朝阳;语音合成技术及手机语音词典的研究[D];山东大学;2005年
10 吴振宇;个性特征的语音合成与模拟技术研究[D];华东师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026