收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

语音识别声学建模中的主动学习研究

陈伟  
【摘要】:声学模型训练主要基于有监督的学习方式,大量的标注数据参与训练用以改善声学模型的性能。尽管随着现代传播媒介的高速发展、互联网等的飞速兴起,海量的语音数据获取非常容易,但是这些数据在训练前需要进行标注,而标注的代价昂贵、过程枯燥乏味并且异常困难。因此,在声学模型训练中引入主动学习机制,通过主动选择包含信息量大的未标注样本交由人工标注并用于声学模型训练,从而使用尽可能少的训练数据获得较高的分类性能很有研究价值。本文围绕声学建模中的主动学习进行了相关研究,主要的工作及创新包括以下几个方面: 1.提出一种基于K-L散度的初始集合选择算法 初始样本集合的选择对主动学习的收敛速度有很大的影响,但是传统的主动学习中,初始样本集合都是由一定数量随机选择的未标注样本标注后组成的。本文提出了一种基于K-L散度的初始集合选择算法,分别对未标注样本集和多组初始样本集的分布进行高斯混合模型GMM建模,并使用K-L散度计算未标注样本集和各个初始样本集分布之间的相似性,最终选择同未标注样本集之间K-L散度最小的集合作为主动学习系统的初始样本集。实验表明,该算法选择的初始样本集用于主动学习系统可以获得很好的收敛速度。 2.基于不同置信度准则的样本评价算法 本文提出了基于不同层次混淆网络的样本评价算法。尽管基于词混淆网络的后验概率是声学建模主动学习中用于评价未标注样本最有效的置信度准则,但是汉语中词具有非常灵活的结构,生成词混淆网络时会出现边界混淆的问题,生成的后验概率不能很好的评价未标注样本。因此,本文设计了多层次混淆网络的生成框架,并分别使用基于字、音节、音素等层次混淆网络得到的后验概率评价未标注样本。此外,本文还提出了一种基于多预测子组合的样本评价算法。目前,声学建模中的主动学习主要采用单一预测子比如后验概率等来评价样本,但是这种方法不能综合多种知识源的信息对样本进行全面评价。本文在每次迭代时,首先构造未标注样本的预测子组合;随后使用基于字词混合的识别结果评价算法标记支持向量机的训练集;然后训练生成支持向量机,并将其识别未标注样本得到的后验概率用于样本评价,从而提供了一种综合不同知识源信息评价未标注样本的思路。实验表明,上述两种样本评价算法是非常有效的。 3.提出一种基于潜主题相似度的样本置信度提取算法 目前,语音识别的关键已取决于后处理系统的解模糊以及纠错能力,如何提取独立于解码信息并且源于高层信息的置信度已经非常重要。本文提出了一种基于潜主题相似度的样本置信度提取算法,通过潜狄利克雷分配LDA计算得到语音样本识别结果的上下文主题分布以及该样本中每个词的主题分布,并将二者之间的主题相似度作为词的置信度。实验表明,基于潜主题相似度的样本置信度有着非常好的信息补充作用,和来源于解码信息的置信度之间可以很好的进行信息互补。 4.提出一种声学模型的选择性训练算法 目前,基于置信度的主动学习和半监督学习将每次迭代选中的样本全部用于声学模型训练,并没有考虑样本中各个词、字或者音节等层次上置信度的情况。本文提出了一种声学模型的选择性训练算法,尝试有选择的使用训练样本中的部分单元(词、字或者音节等)参与声学模型训练,并将其应用到半监督学习中。初始实验表明,在选择单元比例较小的情况下,使用选择性训练和半监督学习进行结合是有效的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘林泉;郑方;吴文虎;;基于小数据量的方言普通话语音识别声学建模[J];清华大学学报(自然科学版)网络.预览;2008年04期
2 黄苏雨;;四川口音普通话的声学建模[J];科技广场;2008年01期
3 程庆祥;;语音识别电路简介[J];家电科技;1990年02期
4 张连海,韩华,王炳锡;过零周期转移概率矩阵语音识别方法的改进[J];信息工程学院学报;1994年01期
5 闫守华;语音控制系统的研制[J];成都气象学院学报;1997年03期
6 李晓霞,王东木,李雪耀;语音识别技术评述[J];计算机应用研究;1999年10期
7 李虎生,刘加,刘润生;利用多层感知机映射提高不匹配环境下的语音识别性能[J];电路与系统学报;1999年04期
8 陈海英,于金辉;利用语音识别进行信息检索[J];情报学报;2003年01期
9 刘占军;;我的Word更“听话”[J];电脑知识与技术(经验技巧);2010年10期
10 赵显富;;译者的话[J];计算技术与自动化;1985年04期
11 张忠平;文成义;;基于BP神经网络的汉语语音识别的研究[J];电声技术;1992年09期
12 战普明,王作英,陆大 ;语音识别隐马尔可夫模型的改进[J];电子学报;1994年01期
13 戎月莉;语音识别的二值化时频图型模糊匹配法[J];应用声学;1994年05期
14 姚萝姑;有限词汇、特定人、商品化的英语语音识别系统[J];上海交通大学学报;1996年06期
15 David Haskin ,贾树山;DragonDictate使语音识别迈上新台阶[J];个人电脑;1996年09期
16 吴少军 ,张维平 ,沈永福;新型语音识别电路AP7003及其应用[J];电子技术应用;2001年07期
17 徐金甫,韦岗,梁树雄;一种基于奇异值分解的带噪语音识别方法[J];华南理工大学学报(自然科学版);2001年01期
18 刘芝;;语音识控 走向应用[J];科技潮;2001年07期
19 张会清,于洪珍;语音识别及自组织映射神经网络的应用[J];计算机工程与应用;2002年19期
20 唐昌文;一种孤立字语音识别的新方法[J];通信技术;2002年08期
中国重要会议论文全文数据库 前10条
1 刘顺兰;窦园园;应娜;;噪声背景下语音识别特征参数选择研究[A];浙江省信号处理学会2011学术年会论文集[C];2011年
2 李军;张兆宁;王旭芳;;一种强噪声背景下的语音端点检测方法[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 任竹;贾珈;蔡莲红;;关键词识别中置信度评估方法的研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
4 初敏;;人机对话系统工程[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
5 孔江平;;普通话语音多模态研究与多媒体教学[A];第四届全国普通话培训测试学术研讨会论文集[C];2009年
6 王蓉华;徐晓岭;顾蓓青;;几何分布产品步进应力加速寿命试验下的点估计[A];2011年全国机械行业可靠性技术学术交流会暨第四届可靠性工程分会第三次全体委员大会论文集[C];2011年
7 王德才;原伟;孙牧;;基于Microsoft Agent开发人机交互程序[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
8 张志虎;郭峰;周浩;陈伟;龙云富;王同宇;;便携式地空导弹综合模拟训练器[A];2001系统仿真技术及其应用学术会议论文集[C];2001年
9 张晶;董金明;冯文全;;说话人识别系统研究与实现[A];全国第二届信号处理与应用学术会议专刊[C];2008年
10 王旭芳;张兆宁;李军;;语音信号端点检测阈值问题的研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
中国博士学位论文全文数据库 前10条
1 陈伟;语音识别声学建模中的主动学习研究[D];北京邮电大学;2011年
2 刘纪平;多重演化神经网络在语音识别中的应用[D];武汉大学;2011年
3 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 丁沛;语音识别中的抗噪声技术[D];清华大学;2003年
6 刘庆升;计算机辅助普通话发音评测关键技术研究[D];中国科学技术大学;2010年
7 田斌;实用化汉语语音识别理论及关键技术研究[D];西安电子科技大学;1999年
8 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年
9 许超;带噪语音信号处理中的稳健性加权方法[D];清华大学;2005年
10 魏思;基于统计模式识别的发音错误检测研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 张琨磊;基于语音增强的基频提取算法在语音识别上的应用研究[D];中国科学技术大学;2011年
2 王霅煜;基于VQ和ASR的多媒体课件检索[D];上海交通大学;2010年
3 郭恒飞;基于非特定人车载电器语音集成控制系统的设计与实现[D];合肥工业大学;2011年
4 王秋杰;TD-SCDMA网络测试软件中语音识别模块的设计与实现[D];北京邮电大学;2011年
5 彭峰;基于SALT的交互式语音应答系统——SALT技术的分析与应用[D];四川大学;2004年
6 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
7 朱晗鸣;嵌入式小词汇量语音识别系统的设计与实现[D];大连理工大学;2005年
8 龙丽霞;基于实例语境的语音识别后文本检错与纠错研究[D];北京邮电大学;2010年
9 宋叔飚;神经网络在语音识别中的应用研究[D];西北工业大学;2002年
10 庞雄昌;语音识别及其定点DSP实现[D];西安电子科技大学;2004年
中国重要报纸全文数据库 前10条
1 中国科学院声学研究所研究员 俞铁城;解析语音识别的发展现状[N];通信产业报;2004年
2 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
3 本报记者 刘学习;认准语音识别的“内核”[N];计算机世界;2002年
4 ;“超人类语音识别”计划[N];中国计算机报;2002年
5 ;Intel涉足语音识别[N];计算机世界;2003年
6 本报记者 艾文;语音识别:IBM继续领跑[N];中国计算机报;2001年
7 小雷;芝麻开门[N];电脑商报;2006年
8 记者 潘治;汽车真能听话[N];新华每日电讯;2002年
9 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
10 本报记者 钟洪奇;Pattek语音识别产品: 找一条走得通的路[N];计算机世界;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978