收藏本站
《中国科学院深圳先进技术研究院》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络的多方言口音汉语语音识别系统研究

王慧勇  
【摘要】:语音识别技术随着互联网和其他移动终端性能的提升,越来越受到工业生产和日常生活的青睐,因此如何提供一个识别性能高,鲁棒性强的语音识别系统显得越来越重要。但是,自从语音识别技术应用在中文识别上,就有一个不能忽视的现象——口音问题,它在很大程度上降低了识别系统的性能,尤其是我国是一个多口音地区国家,口音问题,尤其是多口音问题,成为中文语音识别的一个关键问题。 我国是个多口音地区国家,除了标准的普通话,还有其它七个主要方言——官话,吴,粤,湘,客家,闽以及赣。方言与标准普通话差异大,方言之间变化大。生活在这些方言地区的人们都是把普通话作为第二语言学习的,导致一个最直接的结果就是生活在这些地区的人们,在用普通话进行表达的时候,会存在很大程度上的口音变化。结果就是当前在标准普通话数据上训练的模型并不能针对特定方言的语音识别。带口音的普通话语音识别的困难主要体现在两个方面,因为我国多口音现象的存在产生了不同口音地区发音的变异带来的模型不匹配问题,同时导致了训练口音相关模型和难以获得大批量的不同口音地区的语音语料数据的矛盾。本文采用口音分类和提升特定口音声学模型性能相结合的方法,针对这两个主要问题,不仅能够为地区未知的带口音普通话测试数据选择合适的声学模型,解决模型不匹配的问题,同时通过多层级适应性的网络(MLAN)提升特定口音的模型识别能力,能够进一步更好地解决多口音问题中的模型不匹配以及特定口音数据稀疏导致的的建模难题,进而提高识别率。 论文介绍的MLAN系统充分利用了神经网络的区分性学习能力和交叉数据域的适应能力,通过第一级网络,将更大数据量的标准普通话数据和特定方言口音数据的共性适应性地被提取,再由第一级网络前馈特定口音数据训练第二级网络,并对标准普通话数据前馈,使得标准普通话数据被适应上了特定口音的个性特征。这种架构不但提升了特定口音数据的共性表现能力,也对大量的标准普通话数据进行了个性化的适应,极大地增加了含有特定方言口音特征的训练数据。 目前在广州、重庆地区数据上的实验表明:在基线GMM-HMM系统模型的基础上本文提出的改进系统所带来的相对CER下降分别为23.03%和21.21%,性能提升效果相当明显。很好地验证了对口音未知测试数据进行口音分类的必要性和MLAN框架的优越性。 本文提出这种系统架构具有很好的扩展性和适应性,除了能很好的应对多种口音的语音识别问题,同时也适合更加复杂交叉领域和更加细致分类的情形,比如多种语言,复杂噪声条件等。
【学位授予单位】:中国科学院深圳先进技术研究院
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP183;TN912.34

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
2 吕军;马晓娜;;汉语孤立词声韵分割算法的研究[J];安徽师范大学学报(自然科学版);2008年03期
3 王晖;颜靖华;李传珍;蔡娟娟;;音频贝叶斯谐波模型中参数的提取[J];中国传媒大学学报(自然科学版);2007年04期
4 明生荣;毕节方言韵母的来源[J];毕节师范高等专科学校学报(综合版);2003年01期
5 周长锋;韩力群;;概率神经网络在文本无关说话人识别中的应用[J];北京工商大学学报(自然科学版);2007年01期
6 魏丽英;;简析语音编码[J];才智;2010年31期
7 由守杰;柏森;曹巍巍;;鲁棒的DCT域音频盲水印算法[J];重庆邮电大学学报(自然科学版);2008年02期
8 肖菲;陈贺新;许万里;赵岩;;模式匹配和过零率检测的音频差错掩盖[J];吉林大学学报(信息科学版);2011年01期
9 李雨昕;;基于余弦过完备原子库的语音信号MP稀疏分解[J];成都电子机械高等专科学校学报;2011年02期
10 祝清凯;;论方言差异的形成[J];成都航空职业技术学院学报;2005年04期
中国重要会议论文全文数据库 前10条
1 徐晨;曹辉;;一种语音信号生成的数字模型的研究[A];第二届西安-上海两地声学学术会议论文集[C];2011年
2 哈妮克孜·伊拉洪;帕力旦·赛力提尼牙孜;那斯尔江·吐尔逊;吾守尔·斯拉木;;维吾尔人说汉语普通话发音特点的声学分析[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 冯朝斌;吕成国;赵洪刚;;话者识别系统改进策略的研究[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 项良;刘贺平;;G.723.1算法中闭环基音搜索算法的优化[A];冶金企业自动化、信息化与创新——全国冶金自动化信息网建网30周年论文集[C];2007年
5 陈鹏;张仁杰;郑哲;李杰;;基于ARM的语音识别家居控制装置研究[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
6 范京;郭司琴;张福学;;微硅陀螺信号振幅估计技术[A];全国第五届信号和智能信息处理与应用学术会议专刊(第一册)[C];2011年
7 陈玉平;韩纪庆;郑铁然;;基于音素模型的语音关键词检测系统[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 董军;孙自强;;基于ARM和μC/OS-Ⅱ的实时语音传输技术研究[A];第八届工业仪表与自动化学术会议论文集[C];2007年
9 冯晓亮;于水源;;语音识别中三种基于DTW的模板训练方法的比较[A];第八届全国人机语音通讯学术会议论文集[C];2005年
10 刘静萍;德熙嘉措;;安多藏语辅音识别的设计[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
2 谢春辉;音频隐藏分析方法研究[D];中国科学技术大学;2011年
3 包桂兰;基于EPG的蒙古语标准音协同发音研究[D];内蒙古大学;2011年
4 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
5 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
6 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年
7 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年
8 田良臣;语文科口语课程的多维研究[D];华东师范大学;2006年
9 高林;育苗生产线气吸式播种系统智能控制的研究[D];北京林业大学;2008年
10 汪云路;语音隐藏分析方法研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘继芳;基于计算听觉场景分析的混合语音分离研究[D];哈尔滨工程大学;2009年
2 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
3 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
4 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
5 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
6 朱妹丽;三种篡改情况下的音频鉴定方法研究[D];大连理工大学;2010年
7 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年
8 甄会;欠定盲分离混合矩阵估计方法的研究[D];大连理工大学;2010年
9 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年
10 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 ;语音识别[J];中国会计电算化;2000年02期
2 雅文;语音识别新天地[J];中国计算机用户;2000年05期
3 姚文冰,姚天任,韩涛;稳健语音识别技术发展现状及展望[J];信号处理;2001年06期
4 双中;语音识别芯片及应用[J];贵州科学;2002年04期
5 何湘智;语音识别的研究与发展[J];计算机与现代化;2002年03期
6 唐昌文;一种孤立字语音识别的新方法[J];通信技术;2002年08期
7 王玉伟,张磊,韩纪庆;一种基于非线性特征的应力影响下变异语音识别方法[J];信号处理;2002年05期
8 余鹏,王作英;语音识别中空间相关性信息的利用[J];电子学报;2002年07期
9 韩纪庆;一种语音识别中的环境自适应方法[J];计算机工程与应用;2002年01期
10 王作英,赵蕤;高斯样本模式混淆度分析及其在语音识别中的应用[J];计算机工程与应用;2002年18期
中国重要会议论文全文数据库 前10条
1 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
2 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
4 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
5 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
6 潘胜昔;刘加;江金涛;王作英;陆大金;;基于多模式及集成判决的稳健电话语音识别算法研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
7 杜利民;;语音识别中的鲁棒性问题[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 葛余博;谢新艳;葛菱南;杨楠;胡波;;计算机语音识别的新参数[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 张化云;韩兆兵;徐波;;电话语音翻译中的语音识别研究[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 张晴晴;潘接林;;模糊发音字典在方言口音语音识别中的应用[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
2 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
3 孙暐;听觉特性与鲁棒语音识别算法研究[D];东南大学;2006年
4 雷建军;噪声鲁棒语音识别中若干问题的研究[D];北京邮电大学;2007年
5 刘纪平;多重演化神经网络在语音识别中的应用[D];武汉大学;2011年
6 马龙华;车载环境下语音识别方法研究[D];哈尔滨工程大学;2008年
7 丁沛;语音识别中的抗噪声技术[D];清华大学;2003年
8 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年
9 李伟;基于内容的汉语语音检索技术研究与系统实现[D];清华大学;2011年
10 胡郁;语音识别中基于模型补偿的噪声鲁棒性问题研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 姜德志;家用电器中语音识别研究[D];中国海洋大学;2009年
2 段继康;多类分类支持向量机在语音识别中的应用研究[D];太原理工大学;2010年
3 雷涛;基于神经网络的语音识别研究[D];浙江工业大学;2005年
4 宫晓梅;中等词汇量汉语连续语音识别技术研究[D];中国海洋大学;2007年
5 柳奇芳;基于组合去噪方法的语音识别抗噪技术研究[D];电子科技大学;2008年
6 宫璇;语音识别在工业机器人上的应用研究[D];兰州理工大学;2009年
7 吴炜烨;基于神经网络语音识别算法的研究[D];中南大学;2009年
8 樊明;基于面部表情分析的情感语音识别[D];山东大学;2009年
9 韩玉强;用于家电控制的语音识别方法研究[D];山东大学;2010年
10 董向林;基于对特定人小词汇量的车载语音识别的研究[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026