收藏本站
《中国科学技术大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于神经网络的语音识别声学模型压缩研究

陈皇  
【摘要】:自动语音识别是人机交互与通信的关键组成部分,其主要目的是使机器“听懂”人类所说的语音,将语音信号转变为文本信号。声学模型在语音识别系统中占据着重要地位。传统的语音识别系统主要使用基于高斯混合模型和隐马尔可夫模型(Hidden Markov Model,HMM)的声学模型。近些年来,随着深度学习的迅速发展,与传统的高斯混合模型相比,基于深度神经网络(Deep Neural Networks,DNN)的声学模型给性能提升带来了突破性进展。然而,基于深度神经网络的声学模型包含大量的模型参数以及显著的计算复杂度,这给深度神经网络应用于资源受限的移动端设备造成了巨大的困难。因此,基于深度神经网络的声学模型压缩技术是为了降低模型的参数量与计算复杂度,从而促进语音识别系统应用于资源受限的移动端设备。本文是主要围绕基于深度神经网络的声学模型,进行模型压缩技术的研究。首先,从模型参数量角度,针对基于DNN和全卷积神经网络(Fully Convolutional Neural Networks,FCNN)的声学模型,我们提出了基于激活掩码的方法,在网络训练过程中分析与评价网络模型中神经元的重要性,从而移除对网络模型输出贡献较小的神经元,实现每个隐层的神经元数目的自动学习和减少网络模型参数量。基于长短时记忆(Long Short-Term Memory,LSTM)的递归神经网络声学模型,我们提出了平滑门来分析与评价LSTM模型中记忆单元的重要性,移除对网络输出影响较小的记忆单元,从而达到压缩网络模型规模的目的。实验结果表明在确保语音识别性能的基础上,这两种方法可以有效地压缩网络模型的宽度。其次,从模型参数精确度角度,基于DNN和LSTM的声学模型,本文分别探索了参数定点化和整数化对语音识别系统性能的影响,实验结果表明定点数和整数可以有效地降低神经网络模型的参数精确度和复杂度,而且没有造成识别性能损失。最后,基于连接时序分类(Connectionist Temporal Classification,CTC)模型的解码速度优势,采用基于平滑门的方法来压缩双向LSTM-CTC模型,实验结果表明有助于语音识别解码速度的提升。
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;TP183

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期
2 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期
3 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期
4 张连仲;;带着使命感出发[J];英语学习;2017年01期
5 张凯;;荣威eRX5静态体验 “人性化”语音识别是亮点[J];新能源汽车新闻;2017年01期
6 刘宝华;;语音识别老祖宗[J];经营者(汽车商业评论);2017年03期
7 司马宁;;智能电视,语音识别或成突破口[J];消费指南;2017年05期
8 ;宝马 用科技打造“未来之家”[J];中国汽车市场;2016年11期
9 于海静;郭满库;;小学生单词语音识别技能培养研究[J];教师博览(科研版);2017年04期
10 林小春;江宇娟;刘帅;;语音识别,或是人工智能下一“风口”[J];晚霞;2017年06期
中国重要会议论文全文数据库 前10条
1 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
2 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 邢安昊;黎塔;颜永红;;利用二重打分方法的激活词语音识别[A];中国声学学会第十届青年学术会议论文集[C];2013年
4 文成义;何海燕;张玉扶;;基于新型神经网络的不定人语音识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年
5 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年
6 潘胜昔;刘加;江金涛;王作英;陆大金;;基于多模式及集成判决的稳健电话语音识别算法研究[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年
7 杜利民;;语音识别中的鲁棒性问题[A];第六届全国人机语音通讯学术会议论文集[C];2001年
8 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 张明新;倪宏;陈国平;张东滨;;一种用于并行模型噪声鲁棒语音识别的特征构造方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年
10 熊军军;马瑞堂;李成荣;;儿童语音识别的研究现状[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 通讯员 魏霈侃;从学霸、学者到创业者的华丽转身[N];中国教育报;2016年
2 特约撰稿人 Lamont Wood 编译 Charles;语音识别成长起来,并走向移动应用[N];计算机世界;2018年
3 本报记者 陶力;阿里全资收购先声互联 推动语音识别场景落地[N];21世纪经济报道;2018年
4 洪蕾;阿里研发高工业噪声环境下语音识别及传输技术[N];中国信息化周报;2018年
5 本报记者 郭科;登月早已实现,同期启动的语音识别还在路上[N];科技日报;2018年
6 本报记者 王星平;语音识别商用尴尬 应用场景垂直化路有多远[N];中国企业报;2016年
7 本报记者 余建华;从“绿皮车时代”迈入“高铁时代”[N];人民法院报;2017年
8 陈宗周;机器在聆听[N];电脑报;2017年
9 本报记者 黄旭 熊雯琳;云知声:与巨头共舞,成为AI领域BAT的密码[N];电脑报;2017年
10 本报记者 钱一彬;手机“黑科技”为何叫好不叫座[N];人民日报;2017年
中国博士学位论文全文数据库 前10条
1 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年
2 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年
3 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年
4 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年
5 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年
6 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年
7 孙暐;听觉特性与鲁棒语音识别算法研究[D];东南大学;2006年
8 雷建军;噪声鲁棒语音识别中若干问题的研究[D];北京邮电大学;2007年
9 孙成立;语音关键词识别技术的研究[D];北京邮电大学;2008年
10 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 张晓;基于频谱上下文的语音识别及情感分类算法研究[D];西北大学;2018年
2 吴佳欣;基于TANDEM特征的藏语拉萨方言语音识别的研究[D];西北师范大学;2018年
3 李要嫱;基于主动学习的藏语语音识别在在线教育中的应用[D];中央民族大学;2018年
4 高思萌;讯飞语音识别对英汉交传笔记的影响[D];北京外国语大学;2018年
5 朱明星;车载噪声背景下的语音识别中减噪技术研究[D];安徽工业大学;2018年
6 许娟;改进的人工蜂群算法在语音识别中的应用研究[D];西安建筑科技大学;2018年
7 陈堆盛;随机深度网络在声学建模上的研究[D];华南理工大学;2018年
8 周扬;基于神经网络的语音识别算法研究[D];杭州电子科技大学;2018年
9 向佳豪;语音识别软件对口译学生汉英同声传译的影响研究[D];北京外国语大学;2018年
10 王杰;基于深度神经网络的语音识别研究[D];沈阳工业大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026