收藏本站
《中国海洋大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

语音库自动构建技术的研究

庞敏辉  
【摘要】:随着语音合成技术的进步,语音合成系统开始走向大规模应用的时代。特别是随着可训练语音合成技术(Trainable TTS)合成效果的逐步改善,以及该技术适用于嵌入式低存储空间的特点,极大地推动了语音合成技术的产业化发展。同时,语音合成系统对构建语音合成系统的语音库也提出了更高的要求,特别是在多样化语音合成方面的需求,如口音上的差异,使得语音合成系统经常需要重新构建。但是,传统的语音库构建方法,也就是人工构建方法,存在周期长、一致性差、耗费资源等缺点,并且基于该语音库的合成系统合成的语音表现力差。 在这种背景下,一种能够在短时间内且极少人工干预下通过自动训练的方式构建语音合成系统语音库,能够满足多样化语音合成需求的技术,有着很高的理论研究及使用价值。对此,本论文在基于HMM的可训练语音合成系统的语音库自动构建方面,包括技术框架构建、关键技术以及相关技术应用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下: 首先提出了一个基于音频分类算法的语音探测技术去除带有音乐的音频文件,保留纯话语音频。该音频分类算法融合了高斯混合模型(GMM)和时长可变隐马尔科夫模型(VDHMM)。该算法,首先通过高斯混合模型分类音频的每一帧,然后通过时长可变隐马尔科夫模型的Viterbi算法根据似然值最大化准则将已分类帧组合成段,完成音频分类。 其次,提出了一个句子自动切分算法。在该算法中,首先通过基于隐马尔科夫模型的无监督的方法训练音素隐马尔科夫模型,并通过强制对齐(forced-alignment)技术将篇幅的音素序列和篇幅文本对齐;然后根据句子结束符号(如句号、问号、感叹号等)来切分句子;最后通过一个检查机制,来判断该句子结束符号是否正确,进而获得被正确切分的句子。 第三,提出了一个改进的句子切分算法。该方法能得到更高的句子切分准确率,获得更多的正确切分句子。该改进算法基于一个迭代过程,过程如下:1)根据正确的句子结束符号切分篇幅语音获得段落语音和句子语音,利用该结果训练更为精确的音素隐马尔科夫模型;2)然后通过强制对齐技术将该段落语音和句子语音的音素序列和文本对齐;3)根据正确的句子结束符切分该段落语音和句子语音。循环1-3,直到没有更多的段落和句子数目被切分出来。 此外,提出了在限定文本条件下的语料库自动构建方法。在该方法中,首先是使用改进的Okapi公式来计算句子分数;然后反复地选择分值较高的句子替换语料库句子中分值较低的语料库句子直到语料库句子分数小于某一阈值;最后基于语料库句子,构建可训练语音合成系统的语音库。 实验表明我们提出的技术方法能在基本无人工干预下快速、自动地构建应用于Trainable TTS的语音库。
【学位授予单位】:中国海洋大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TN912.33

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 任鹏辉;张雪英;孙颖;;面向语音情感计算的数据库的构建与应用研究[J];电视技术;2012年21期
中国硕士学位论文全文数据库 前6条
1 何鑫;基于HMM的单元挑选语音合成方法研究[D];西安工业大学;2017年
2 王昱;傣语中的汉语借词发音规则及其语音合成方法研究[D];云南大学;2016年
3 刘星星;基于曲线回归分析的情感语音合成[D];太原理工大学;2014年
4 熊林云;基于ARM Cortex-M3的语音合成软件系统设计与实现[D];电子科技大学;2014年
5 李娜;麦克风自适应算法在鲁棒语音合成中的研究[D];中国海洋大学;2013年
6 任鹏辉;情感语音合成系统的研究与实现[D];太原理工大学;2013年
【参考文献】
中国期刊全文数据库 前1条
1 顾文涛;用于最佳文本选择的改进贪婪算法[J];上海交通大学学报;1999年01期
【共引文献】
中国期刊全文数据库 前1条
1 姑丽加玛丽·麦麦提艾力;艾斯卡尔·肉孜;艾斯卡尔·艾木都拉;;三音素模型的维吾尔语最佳文本选取算法[J];计算机工程与应用;2009年18期
【同被引文献】
中国期刊全文数据库 前6条
1 陈洁;张雪英;孙颖;;基于HMM的可训练情感语音合成研究[J];电声技术;2012年03期
2 张雪英;陈洁;孙颖;;改进的HMM系统在英语语音合成中的研究[J];太原理工大学学报;2012年01期
3 黄程韦;金赟;赵艳;于寅骅;赵力;;实用语音情感数据库的设计与研究[J];声学技术;2010年04期
4 徐露;徐明星;杨大利;;面向情感变化检测的汉语情感语音数据库[J];清华大学学报(自然科学版);2009年S1期
5 蒋丹宁;蔡莲红;;基于语音声学特征的情感信息识别[J];清华大学学报(自然科学版);2006年01期
6 周洁,赵力,邹采荣;情感语音合成的研究[J];电声技术;2005年10期
中国硕士学位论文全文数据库 前10条
1 侯亭武;基于语料库的中文语音合成技术研究[D];华中科技大学;2015年
2 陈海;浅析维吾尔语中的汉语借词[D];新疆师范大学;2014年
3 米辉辉;与汉语语音同步的三维人脸动画的研究[D];西南交通大学;2014年
4 宋阳;基于统计声学建模的单元挑选语音合成方法研究[D];中国科学技术大学;2014年
5 林雪娥;泰语文语转换系统中的文本分析和处理[D];云南大学;2014年
6 张金溪;基于HMM的藏语拉萨话语音合成研究[D];西北民族大学;2014年
7 赵建东;基于隐马尔科夫模型的蒙古语语音合成技术研究[D];内蒙古大学;2014年
8 郑瑞;基音检测算法研究及其在语音合成中的应用[D];南京师范大学;2014年
9 肖春梅;基于基音同步叠加方法的汉语语音合成处理研究[D];昆明理工大学;2014年
10 宋文龙;基于说话人自适应训练的统计参数语音合成的研究[D];西北师范大学;2013年
【二级引证文献】
中国期刊全文数据库 前1条
1 吴振英;金薇;;基于stm32f407VG嵌入式非特定语音识别模块的设计和实现[J];轻工科技;2014年12期
中国硕士学位论文全文数据库 前10条
1 其乐木格;医院蒙古语叫号系统的设计与实现[D];内蒙古大学;2018年
2 胡容;移动互联居家老人关怀服务系统研究[D];江西财经大学;2017年
3 宋甜;学生信息管理系统设计与实现[D];湖北工业大学;2017年
4 张帅;统计参数语音合成的硬件实现[D];西北师范大学;2017年
5 姚慧;情感语音的非线性特征研究[D];太原理工大学;2016年
6 田铠;面向人与中型组足球机器人对抗赛的相关交互技术研究[D];中国矿业大学;2016年
7 杨国菁;城市轨道交通乘客出行行为多样性研究[D];北京交通大学;2016年
8 郝东亮;统计参数情感语音合成的研究[D];西北师范大学;2016年
9 李焕君;个性化语音合成在船舶导航系统中应用研究[D];大连海事大学;2016年
10 王泽勋;多层次韵律和短时谱同步变换的情感语音合成[D];苏州大学;2015年
【相似文献】
中国期刊全文数据库 前10条
1 朱亚喆,柴佩琪;语音合成系统中语音库的设计与实现[J];计算机工程;1997年S1期
2 徐英莹,张培仁;粤语语音合成系统语料库设计研究[J];计算机工程;2005年14期
3 高伟;肖攸安;刘冬生;;基于VB6.0的多语音合成系统的实现[J];武汉理工大学学报(信息与管理工程版);2008年06期
4 高璐;;藏语天气预报语音合成系统的初步研究[J];电脑与电信;2009年01期
5 高峰,孙玲芬;一种计算机语音合成系统的设计与实现[J];军事通信技术;1996年03期
6 范会敏;何鑫;;中文语音合成系统的设计与实现[J];计算机系统应用;2017年02期
7 ;移动设备的又一增值服务──移动设备嵌入式语音合成系统[J];通信世界;2001年22期
8 ;语音合成系统的关键技术与应用实例[J];杭州科技;2000年02期
9 刘芳;;藏语语音合成系统的关键技术研究[J];西藏大学学报(自然科学版);2016年02期
10 王兵,苏恩泽;可发多种方音调的语音合成系统[J];计算机工程与应用;1995年05期
中国重要会议论文全文数据库 前10条
1 汤胜良;张士礼;张志平;吴玺宏;迟惠生;;基于新闻联播语料库的语音合成系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
2 孙岭;胡郁;王仁华;;中文语音合成系统中的语料库设计[A];第六届全国人机语音通讯学术会议论文集[C];2001年
3 敖其尔;巩政;呼日勒巴特尔;王小喻;;蒙古语音合成系统[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年
4 唐仕喜;李洪波;武光利;于洪志;;藏语语音合成系统韵律建模规律初步研究[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
5 王仁华;;语音合成系统发展与最新进展[A];第九届全国人机语音通讯学术会议论文集[C];2007年
6 王玮;蔡莲红;;语音合成系统中韵律参数的聚类研究[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 王朝民;谢湘;匡镜明;;一种嵌入式中文语音合成系统非周期成分音节层建模方法[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
8 张大伟;李昊;杨明浩;陶建华;;语音驱动可视语音合成系统[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
9 宋阳;凌震华;戴礼荣;;基于合成质量预测的单元挑选语音合成系统优化方法研究[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
10 陶建华;许晓颖;;面向情感的语音合成系统[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
中国重要报纸全文数据库 前10条
1 记者 聂翠蓉;“倾听”1分钟,就能开口模仿人类“讲话”[N];科技日报;2017年
2 孙晓闻;专业版语音合成系统让12333更加人性化[N];中国劳动保障报;2006年
3 记者 吴长锋;科大讯飞英文语音合成系统获奖[N];科技日报;2006年
4 一泓 晓月 海宁;产品新干线[N];金融时报;2000年
5 记者 汪永安;安徽展区成为高交会亮丽风景[N];安徽日报;2006年
6 IBM中国研究中心 秦勇;IBM电话语音技术及其应用(一)[N];光明日报;2000年
7 记者 陆列嘉;我省自主创新成果备受关注[N];安徽日报;2006年
8 北京外国语大学北京日本学研究中心 段文晶;以学习者为中心建设语料库[N];中国社会科学报;2019年
9 戴光荣 福建工程学院人文学院;从语料库视角看中国文学作品“走出去”[N];中国社会科学报;2018年
10 国家社科基金重大项目“大规模英汉平行语料库的建立与加工”首席专家、北京外国语大学教授 王克非;构建新型的历时复合语料库[N];中国社会科学报;2016年
中国博士学位论文全文数据库 前9条
1 王永鑫;语音合成系统中关键技术的研究[D];清华大学;2013年
2 才让卓玛;基于混合基元的藏语语音合成技术研究[D];陕西师范大学;2016年
3 恩和巴雅尔;蒙古国新闻语料库的构建及相关问题研究[D];内蒙古大学;2016年
4 何清顺;基于语料库的英语独立主格结构之系统功能语言学研究[D];西南大学;2013年
5 刘翼光;动态人脸识别系统[D];中国科学院研究生院(计算技术研究所);2000年
6 李二涛;基于博客语料库副词使用的性别差异实证研究[D];华中师范大学;2012年
7 于洋;基于语料库的环境话语中的联合研究[D];山东大学;2013年
8 王俭;基于语料库的海明威小说评论研究[D];上海外国语大学;2012年
9 周小玲;基于语料库的译者文体研究[D];湖南师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 庞敏辉;语音库自动构建技术的研究[D];中国海洋大学;2010年
2 李芳;汉语语音合成系统及其韵律调整[D];大连理工大学;2007年
3 任鹏辉;情感语音合成系统的研究与实现[D];太原理工大学;2013年
4 宝阿力塔;蒙古语语音合成系统的设计与实现[D];内蒙古大学;2016年
5 刘洋;嵌入式语音合成系统的研究与实现[D];中国地质大学(北京);2012年
6 贾志浩;汉语语音合成系统的改进与实现[D];南京理工大学;2012年
7 朱广路;闽南方言语音合成系统的设计与实现[D];南京理工大学;2017年
8 阮文彬;基于DNN的汉语到藏语跨语言语音转换的研究[D];西北师范大学;2018年
9 李慧;基于连续波雷达和Webcam的语音感知技术的研究[D];南京理工大学;2017年
10 刘柳;基于i.MX6Q的音频驱动及语音合成系统设计[D];武汉理工大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026