收藏本站
《北京邮电大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

语音识别中的说话人自适应研究

王坚  
【摘要】: 今天,各种高效、快捷的算法使得建立实时的连续语音识别系统成为可能,但是在实际应用中由于说话人的改变会使得系统性能下降。说话人自适应技术利用少量的自适应数据来提高系统性能,能够较好的解决这这种声学差异问题。本文将基于大词汇量连续语音识别平台,围绕说话人自适应技术展开研究,具体工作和创新包括以下几个方面: 1.MAP和MLLR算法比较 文章在讨论由说话人引起的声学差异基础上,研究两种基于模型的自适应算法:最大似然线性回归(MLLR)和最大后验概率(MAP)。实验结果表明,不论采用哪种自适应都能使识别率有一定的提升。两种算法之间的差异性在于MAP具有良好的渐进性,但收敛性较差,而MLLR在很大程度上改善了收敛特性,但其渐进特性却不如MAP。 文章讨论了在MAP自适应中,初始模型参数的先验知识对自适应效果的影响,以及在MLLR中,回归类对自适应效果的影响。文章还进一步研究了采用两种算法的累加自适应效果,从结果看MAP和MLLR结合的方法比单独使用MAP和MLLR的效果要好。文章还对包括基于特征层的归一化算法和用于基于声学模型的MLLR算法等效性进行讨论,并给出了统一的算法框架。 2.改进的基于聚类的说话人自适应算法 文章提出以模型间加权交叉似然比为距离测度的说话人聚类自适应算法框架。在识别过程中,寻找训练说话人和测试说话人的相关性,充分利用可以提供的自适应语料和训练语料,是提高说话人自适应性能的有效手段。本文中,利用高斯混合模型来表征说话人,并通过说话人聚类来减少参考模型数量,实现粗分类。以此为基础,根据测试说话人的声学特征对参考说话人进行选择,从而实现快速说话人自适应。同时,文章还采用了统一的背景模型来作为各说话人模型的基线系统以增加模型间的耦合度。 在目标说话人模型生成阶段,本文利用模型训练过程中产生的声学统计量,快速得到所需的模型参数。实验结果表明,利用说话人聚类技术进行参考说话人粗分类后,识别率比基线系统有较大提高。而且,粗分类精识别的手段表现在不同模型混合度上,都取得了较好的性能。 3.参考说话人的动态选择技术及其改进 文章在对参考说话人选择技术进行分析的基础上提出了基于支撑向量机的动态参考说话人选择技术(Speaker Support VectorSelection,SSVS)。参考说话人数量及其数据是否足够描述所有参考说话人的分布是取得好的自适应效果的关键。支撑向量机具有自动寻找那些对分类有较好区分能力的支撑向量的能力,因此本文提出将参考说话人视作支撑向量,结合支撑向量机训练过程进行参考说话人选择,以满足最优化和动态的要求。SSVS将参考说话人的选择由手动变为自动,同时满足声学模型完整性和声学近似性的要求。实验证明,这种方法能够取得较好的自适应效果。 在此基础上,文章对SSVS进行改进,通过直接选取代表参考说话人的支撑向量来完成参考说话人选择(Reference Support SpeakerSelection,RSSS)。动态参考说话人选择的实现关键在于寻找代表参考说话人的支撑向量。本文借助SVM中的核函数来计算高维特征空间中两个样本间的距离,遍历训练样本集后得到最优分类面附近的样本集,其中各样本即为所需要的参考说话人支撑向量,同时,文章利用置信度来约束支撑向量选择过程。实验数据表明基于RSSS的说话人选择能有效提高系统性能。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TN912.34

手机知网App
【相似文献】
中国重要会议论文全文数据库 前10条
1 王之禹;温源;侯震;李明;;多发音字典在连续语音识别中的应用[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
2 包叶波;胡郁;刘聪;江辉;戴礼荣;刘庆峰;;中文连续语音识别系统音素建模单元集的构建[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
3 包叶波;胡郁;刘聪;江辉;戴礼荣;刘庆峰;;中文连续语音识别系统音素建模单元集的构建[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 吕萍;王作英;陆大金;;基于最大似然模型插值的快速说话人自适应算法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
5 黄泰翼;高雨青;;计算机语音识别的最新进展和展望[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
6 何磊;方棣棠;吴文虎;;说话人聚类与模型自适应结合的说话人自适应方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 马芹;苏广川;;基于音节分割的连续语音识别方法的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 柴佩琪;;基于本征值的汉语音节切分方法[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 吴伟民;林道发;杨家沅;;连续密度HMM用于非特定人的汉语连续语句识别的尝试[A];第三届全国人机语音通讯学术会议论文集[C];1994年
中国重要报纸全文数据库 前10条
1 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
2 ;人机对话无障碍[N];中国计算机报;2002年
3 孙忠法;我可以选择我的成功[N];中国人事报;2006年
4 本报记者 钟洪奇;Pattek语音识别产品: 找一条走得通的路[N];计算机世界;2002年
5 本报实习记者 朱泉峰;“无求品自高”[N];计算机世界;2005年
6 冰梅;全面展现人性化设计[N];计算机世界;2000年
7 本报记者 刘学习;认准语音识别的“内核”[N];计算机世界;2002年
8 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
9 本报记者  文杰;李开复:一不小心成了“校园教父”[N];成都日报;2006年
10 ;不竭的源动力[N];中国计算机报;2001年
中国博士学位论文全文数据库 前5条
1 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年
2 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
3 孙成立;语音关键词识别技术的研究[D];北京邮电大学;2008年
4 黄浩;基于区分性原理的汉语语音识别中声调问题的研究[D];上海交通大学;2008年
5 鄢志杰;声学模型区分性训练及其在自动语音识别中的应用[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 湛宗儒;连续语音识别算法研究及在嵌入式系统上的实现[D];武汉理工大学;2010年
2 薛小燕;基于动态贝叶斯网络的连续语音识别研究[D];解放军信息工程大学;2010年
3 武晓敏;基于Julius的维吾尔语连续语音识别研究[D];新疆大学;2012年
4 薛蕾;基于HMM和代数神经网络的连续语音识别研究[D];西北大学;2010年
5 张宝奇;基于切分的汉语连续语音识别技术研究[D];解放军信息工程大学;2010年
6 卜素亮;非特定人连续语音识别技术研究与应用[D];复旦大学;2011年
7 谢磊;连续语音识别中声学模型的建立[D];西北工业大学;2002年
8 尹明明;连续语音识别解码技术的研究[D];解放军信息工程大学;2011年
9 黄旭;基于HTK和Microsoft Speech SDK的连续语音识别系统的研究及实现[D];厦门大学;2007年
10 张志华;说话人自适应技术研究及其在电话信道下的关键词检出系统应用[D];中国人民解放军信息工程大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026