收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于核方法的说话人辨认模型研究

郑建炜  
【摘要】:说话人识别技术由于其独特的便利性、精确性和经济性,被认为是最自然的生物认证技术,在安全监控、司法鉴定、电子侦听、金融服务等方面都具有广泛的应用前景。当前,说话人识别系统开发已逐渐从理论研究转向实际应用,对其要求也随着应用环境的变更而越来越高,不仅期望具有极高的识别率,还要具有较高的实时性,此外,系统构建便捷性、模型扩展能力等都不容忽视。近十几年来,基于核函数的分类算法已成为模式识别领域的研究焦点,它有效克服了传统模式识别方法中局部极小和非完全统计分析的缺点,具有很强的非线性处理能力,而说话人识别系统中输入的语音特征参数正好是非线性的且局部特性复杂。因此,应用核分类模型于说话人识别时能够获得很好的效果。 本文针对说话人识别中的辨认任务,以小样本语料库为应用对象,着重研究模型域的改进,提出具有各种优势的核分类方法。主要工作如下: 1.深入分析当前主导的说话人识别模型GMM-UBM和SVM。产生性模型-高斯混合模型(GMM)一直作为说话人识别的基准技术,但其直接应用存在训练样本量需求过大的缺陷,而统一背景模型(UBM)可以削减目标说话人的输入数据,且效果更比单纯GMM优越。区分性模型-支持向量机(SVM)具有最大分类间隔、全局最优解、稀疏性能等优势,在小样本说话人识别应用中效果比GMM-UBM更佳。本文分别从原理、优缺点、融合策略、应用细节等几方面对两者作了细致地分析。通过说话人辨认实验表明,GMM-UBM模型的测试实时度稍逊,而两分类模型SVM的多元扩展能力较为薄弱。 2.联合相关向量机与高斯混合模型进行说话人辨认。相关向量机(RVM)分类模型与SVM具有一致的判决公式,同样有很强的泛化能力,并且其稀疏性更好;此外,RVM使用概率输出克服了SVM二值结果的缺点,又无需进行繁琐的惩罚因子C计算。但是在与文本无关的话者辨别中,RVM模型构建过程却过于缓慢。本文将二元模型RVM引入说话人辨认领域,并采用快速训练算法进行基于帧的话者识别。为进一步提升模型构建速率,取GMM统计特征参数作为RVM的输入矢量,既能够有效地提炼话者个体性信息,解决大样本数据情形中的RVM训练问题,又结合了统计模型鲁棒性高和分辨模型辨别效果好的优点。实验结果表明,RVM与SVM模型扩展能力一致,识别率相仿,但测试实时性能明显优于SVM。 3.提出多元核Logistic回归(MKLR)说话人辨认方法。虽然RVM与SVM都具有优秀的识别性能和测试实时度,但二元模型的本质使得两者都无法直接应用于说话人辨认。本文针对基于帧的与文本无关说话人辨认多分类目标和大训练样本的情况,将经典核Logistic回归(KLR)模型进行多元化变形,叠加L2惩罚因子,以提高模型泛化能力。把最优目标函数负对数Logistic公式对偶化,并利用序列最小优化算法进行模型训练,不仅保持了原KLR模型的强分辨能力,也加快了模型构建过程。实验结果表明,MKLR在辨认任务中无需进行繁复的多分类扩展,且识别率达到99.5%。 4.提出概率稀疏型多元核Logistic说话人辨认方法(SMKLC)。MKLR的缺陷是测试速率低下,因此,本文对经典Logistic回归模型进行多元化扩展后,为参数叠加RVM中采用的稀疏性先验概率分布,在不引入新的先验信息性参数前提下使模型具有稀疏结果。模型训练采用自下向上贪婪算法,规避了大型矩阵逆操作,约简了训练过程计算量。说话人辨认实验结果表明,SMKLC在保持高识别性能的同时,其测试用时仅需0.0057秒/短语。 5.提出保局部核Fisher鉴别说话人辨认方法(LWFDA)。结合核Fisher判别(KFD)方法与局部保持投影(LPP)两者的优势,将亲和因子引入KFD中的类内散度矩阵,保留KFD全局最优投影能力的同时,又凸现LPP的局部保持能力,对重叠(离群)样本与多态分簇样本都能实现有效的分类投影,并给出了快速求解算法,解决大样本训练时出现的内存溢出问题,以适应于说话人辨认。实验结果表明,LWFDA识别率与MKLR一致,测试用时较MKLR缩减了9.25%。 6.提出增强型数据域描述说话人辨认方法(EDDD)。为适应开集的辨认任务,以支持向量域描述(SVDD)算法为基础,通过一种简易的形式引入数据间密度因子,使处于不同区域的数据对分类器的作用不再被同等对待,高密度区数据对分类支撑域的作用被强化,而低密区即呈零星分布的数据作用被削弱,结果使分类超球体自动靠近数据高密区而提高其识别性能。说话人辨认实验结果表明,EDDD模型的识别性能全面优于GMM。 本文主要研究说话人辨认系统中的模型部分,提出或改进了各类基于核的分类方法,包括二元分类器、多元分类器、单类分类器、降维分类器等,它们各自都具有得天独厚的优势,能满足不同需求的说话人辨认系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 林江云;;说话人辨认中GMM模型的聚类优化研究[J];心智与计算;2008年01期
2 王成儒,王金甲;基于并行PNN模型的说话人辨认研究[J];计算机工程;2004年01期
3 谢青松;潘进;史永林;李国朋;;基于GMM模型的说话人辨认系统[J];电脑知识与技术;2009年09期
4 张玲华,石操,张子菁,杨震,郑宝玉;说话人辨认系统中码本生成的新算法[J];信号处理;2004年04期
5 王成儒,王金甲,练秋生;一种新的用于说话人辨认的PNN分类器的研究(英文)[J];自动化学报;2004年03期
6 倪建克;曾虹;张翔;;基于最大均值似然判决规则的说话人辨认研究[J];杭州电子科技大学学报;2006年05期
7 荣蓉;;基于神经网络的与文本相关说话人辨认系统[J];山东科学;2008年04期
8 何昕,刘重庆,李介谷;基于支撑向量机的文本无关的说话人识别系统[J];计算机工程;2000年06期
9 邱政权,江太辉;GMM/ANN混合说话人辨认模型[J];计算机工程与应用;2004年17期
10 冷自强;王金明;林大会;;一种GMM-SVM混合说话人辨认模型[J];军事通信技术;2009年01期
11 王成儒,王金甲,李静;一种用于说话人辨认的概率神经网络的MCE训练算法[J];仪器仪表学报;2002年S3期
12 茅晓泉,胡光锐,唐斌;说话人辨认中基于进化策略的最大互信息训练方法[J];上海交通大学学报;2003年03期
13 刘庆辉;姚鸿勋;;基于唇动的说话人识别技术[J];计算机工程与应用;2006年12期
14 谢霞;李宏;郑俊;;基于GMM的说话人辨认系统及其改进[J];电脑与信息技术;2006年02期
15 李燕萍;唐振民;丁辉;张燕;;基于GMM特征变换和模糊LS-SVM的说话人辨认[J];华中科技大学学报(自然科学版);2008年S1期
16 何致远,胡起秀,徐光祐;两级决策的开集说话人辨认方法[J];清华大学学报(自然科学版);2003年04期
17 张玲华,杨震,郑宝玉;基于HMM的说话人辨认系统及其改进[J];电讯技术;2003年06期
18 孙林慧,叶蕾,杨震;说话人识别中测试时长与识别率关系研究[J];计算机仿真;2005年05期
19 邱政权;尹俊勋;;结合重叠子帧的KLT和MMCE的说话人辨认[J];声学技术;2007年04期
20 邱政权;尹俊勋;;用于说话人辨认的基于重叠子帧的有效KLT[J];微计算机信息;2006年23期
中国重要会议论文全文数据库 前10条
1 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
2 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年
3 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认快速算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 倪建克;曾虹;张翔;;基于最大均值似然判决规则的说话人辨认研究[A];浙江省电子学会2006年学术年会论文集[C];2006年
5 彭诗雅;;声纹识别技术研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
6 欧贵文;覃剑锋;;基于高斯混合模型的文本无关说话人识别[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 王成儒;王金甲;李静;;一种用于说话人辨认的概率神经网络的MCE训练算法[A];第三次全国会员代表大会暨学术会议论文集[C];2002年
8 陈峰;赵铁军;尚福华;李生;;文本无关的话者识别中基于SVM的判别策略研究[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 肖剑;欧贵文;;多层前馈神经网络组的文本无关说话人识别[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
10 杨海燕;景新幸;王莹;曹雨;;SVM在与文本无关的说话人识别系统中的应用研究[A];2008年全国声学学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 李燕萍;说话人辨认中的特征参数提取和鲁棒性技术研究[D];南京理工大学;2009年
2 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
3 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年
4 邱政权;在噪声环境下的说话人识别[D];华南理工大学;2007年
5 徐利敏;说话人辨认中的特征变换和鲁棒性技术研究[D];南京理工大学;2008年
6 许东星;基于GMM和高层信息特征的文本无关说话人识别研究[D];中国科学技术大学;2009年
7 刘明辉;基于GMM和SVM的文本无关的说话人确认方法研究[D];中国科学技术大学;2007年
8 姚志强;说话人识别中提高GMM性能方法的研究[D];中国科学技术大学;2006年
9 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
10 陆伟;基于缺失特征的文本无关说话人识别鲁棒性研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 李雪林;说话人识别中不同语音编码影响的补偿方法[D];哈尔滨工业大学;2008年
2 王波;电话信道文本无关说话人识别[D];中国人民解放军信息工程大学;2002年
3 王金甲;噪声环境下鲁棒性文本自由说话人辨认系统的研究[D];燕山大学;2003年
4 曹华;复杂性分析方法在语音及图像处理中的应用研究[D];浙江大学;2004年
5 陈伯胜;基于VQ和GMM的与文本无关的说话人识别研究[D];重庆大学;2007年
6 林江云;文本无关说话人识别系统研究[D];厦门大学;2008年
7 胡益平;基于GMM的说话人识别技术研究与实现[D];厦门大学;2007年
8 朱浩冰;适用于特定人群的声纹识别系统研究[D];厦门大学;2008年
9 纪现清;文本无关说话人确认及其应用研究[D];北京交通大学;2008年
10 蒋晔;基于文本无关的说话人识别技术研究[D];南京理工大学;2008年
中国重要报纸全文数据库 前1条
1 ;解密声纹锁 一声令下,“芝麻开门”[N];广东科技报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978