收藏本站
《北京邮电大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

语音识别声学建模中的主动学习研究

陈伟  
【摘要】:声学模型训练主要基于有监督的学习方式,大量的标注数据参与训练用以改善声学模型的性能。尽管随着现代传播媒介的高速发展、互联网等的飞速兴起,海量的语音数据获取非常容易,但是这些数据在训练前需要进行标注,而标注的代价昂贵、过程枯燥乏味并且异常困难。因此,在声学模型训练中引入主动学习机制,通过主动选择包含信息量大的未标注样本交由人工标注并用于声学模型训练,从而使用尽可能少的训练数据获得较高的分类性能很有研究价值。本文围绕声学建模中的主动学习进行了相关研究,主要的工作及创新包括以下几个方面: 1.提出一种基于K-L散度的初始集合选择算法 初始样本集合的选择对主动学习的收敛速度有很大的影响,但是传统的主动学习中,初始样本集合都是由一定数量随机选择的未标注样本标注后组成的。本文提出了一种基于K-L散度的初始集合选择算法,分别对未标注样本集和多组初始样本集的分布进行高斯混合模型GMM建模,并使用K-L散度计算未标注样本集和各个初始样本集分布之间的相似性,最终选择同未标注样本集之间K-L散度最小的集合作为主动学习系统的初始样本集。实验表明,该算法选择的初始样本集用于主动学习系统可以获得很好的收敛速度。 2.基于不同置信度准则的样本评价算法 本文提出了基于不同层次混淆网络的样本评价算法。尽管基于词混淆网络的后验概率是声学建模主动学习中用于评价未标注样本最有效的置信度准则,但是汉语中词具有非常灵活的结构,生成词混淆网络时会出现边界混淆的问题,生成的后验概率不能很好的评价未标注样本。因此,本文设计了多层次混淆网络的生成框架,并分别使用基于字、音节、音素等层次混淆网络得到的后验概率评价未标注样本。此外,本文还提出了一种基于多预测子组合的样本评价算法。目前,声学建模中的主动学习主要采用单一预测子比如后验概率等来评价样本,但是这种方法不能综合多种知识源的信息对样本进行全面评价。本文在每次迭代时,首先构造未标注样本的预测子组合;随后使用基于字词混合的识别结果评价算法标记支持向量机的训练集;然后训练生成支持向量机,并将其识别未标注样本得到的后验概率用于样本评价,从而提供了一种综合不同知识源信息评价未标注样本的思路。实验表明,上述两种样本评价算法是非常有效的。 3.提出一种基于潜主题相似度的样本置信度提取算法 目前,语音识别的关键已取决于后处理系统的解模糊以及纠错能力,如何提取独立于解码信息并且源于高层信息的置信度已经非常重要。本文提出了一种基于潜主题相似度的样本置信度提取算法,通过潜狄利克雷分配LDA计算得到语音样本识别结果的上下文主题分布以及该样本中每个词的主题分布,并将二者之间的主题相似度作为词的置信度。实验表明,基于潜主题相似度的样本置信度有着非常好的信息补充作用,和来源于解码信息的置信度之间可以很好的进行信息互补。 4.提出一种声学模型的选择性训练算法 目前,基于置信度的主动学习和半监督学习将每次迭代选中的样本全部用于声学模型训练,并没有考虑样本中各个词、字或者音节等层次上置信度的情况。本文提出了一种声学模型的选择性训练算法,尝试有选择的使用训练样本中的部分单元(词、字或者音节等)参与声学模型训练,并将其应用到半监督学习中。初始实验表明,在选择单元比例较小的情况下,使用选择性训练和半监督学习进行结合是有效的。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TN912.34

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 邢绍邦;韩晓新;赵宏为;;语音识别无线风扇控制器[J];工业控制计算机;2011年08期
2 余姗姗;张亚琼;;语音识别的自适应研究[J];福建电脑;2011年06期
3 胡文静;张国云;唐剑锋;;基于SPCE061A语音识别门禁系统实现的研究[J];计算技术与自动化;2011年02期
4 姜莹;俞一彪;;采用特征分类直方图均衡化的鲁棒性语音识别[J];信号处理;2011年06期
5 努尔比亚·吐拉甫;;维汉在线翻译网站语音语料库的运用[J];华章;2011年18期
6 许斌;;语音识别与云计算技术在全媒体制播业务中的实践探索[J];现代电视技术;2011年07期
7 王帛;冯新喜;余侃民;朱必浩;;一种基于倒谱均值减的语音端点检测改进方法[J];电光与控制;2011年07期
8 徐莉;王志刚;高玺广;张博;;GPRS在智能家居监控系统中的应用[J];电子设计工程;2011年16期
9 郭芃;;征服WIN7[J];八小时以外;2011年09期
10 袁铨;张建中;姜衔;周珊珊;曹跃;;动态3维场景中多角色动画的交互式模拟研究[J];中国图象图形学报;2011年06期
中国重要会议论文全文数据库 前10条
1 计天颖;王作英;陆大金;;有限命令集连续语音识别[A];第三届全国人机语音通讯学术会议论文集[C];1994年
2 余鹏;王作英;;语音识别码本状态间的线性和非线性相关性[A];第六届全国人机语音通讯学术会议论文集[C];2001年
3 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 靳慧龙;;基于DSP的电视语音拨号遥控技术[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
5 张超;刘轶;郑方;;面向多口音语音识别的声学模型重构[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
6 张超;刘轶;郑方;;面向多口音语音识别的声学模型重构方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 马晓川;刘冬;赵荣椿;;孤立短语隐马尔可夫模型自动建模软件的实现[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 郭晨;;汉语语音技术[A];第一届学生计算语言学研讨会论文集[C];2002年
9 赵海滨;王宏;闻绍飞;;嵌入式语音识别控制机械手的系统设计[A];第二届全国信息获取与处理学术会议论文集[C];2004年
10 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国重要报纸全文数据库 前10条
1 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
2 本报记者 贾丽;科大讯飞募资4.45亿开拓语音识别业务[N];证券日报;2011年
3 本报记者 俞悦;语音识别质量最重要[N];中国计算机报;2011年
4 ;未来十年展望之体验技术[N];中国计算机报;2010年
5 本报记者 操秀英;颜永红:“搜索”语音识别的未来[N];科技日报;2010年
6 刘权;OSR提升语音识别率[N];中国计算机报;2004年
7 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
8 本报记者 刘海峰;言丰科技:开拓语音识别的第二空间[N];计算机世界;2000年
9 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
10 ;爱可信与模识科技携手推动语音识别技术应用[N];人民邮电;2006年
中国博士学位论文全文数据库 前10条
1 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
2 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
3 刘纪平;多重演化神经网络在语音识别中的应用[D];武汉大学;2011年
4 孙颖;情感语音识别与合成的研究[D];太原理工大学;2011年
5 李伟;基于内容的汉语语音检索技术研究与系统实现[D];清华大学;2011年
6 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
7 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
8 丁沛;语音识别中的抗噪声技术[D];清华大学;2003年
9 刘庆升;计算机辅助普通话发音评测关键技术研究[D];中国科学技术大学;2010年
10 田斌;实用化汉语语音识别理论及关键技术研究[D];西安电子科技大学;1999年
中国硕士学位论文全文数据库 前10条
1 张琨磊;基于语音增强的基频提取算法在语音识别上的应用研究[D];中国科学技术大学;2011年
2 王霅煜;基于VQ和ASR的多媒体课件检索[D];上海交通大学;2010年
3 郭恒飞;基于非特定人车载电器语音集成控制系统的设计与实现[D];合肥工业大学;2011年
4 王秋杰;TD-SCDMA网络测试软件中语音识别模块的设计与实现[D];北京邮电大学;2011年
5 彭峰;基于SALT的交互式语音应答系统——SALT技术的分析与应用[D];四川大学;2004年
6 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
7 朱晗鸣;嵌入式小词汇量语音识别系统的设计与实现[D];大连理工大学;2005年
8 龙丽霞;基于实例语境的语音识别后文本检错与纠错研究[D];北京邮电大学;2010年
9 宋叔飚;神经网络在语音识别中的应用研究[D];西北工业大学;2002年
10 庞雄昌;语音识别及其定点DSP实现[D];西安电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026