收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM和GMM的说话人辨识方法研究

陈黎  
【摘要】:说话人识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出相应说话人的过程。它是语音信号处理的一个重要研究方向,作为一种生物认证技术,具有广泛的应用前景,促使越来越多的人对其进行研究。 目前,基于闭集的说话人识别已经取得了比较好的进展,但是基于开集的说话人识别的识别性能还有待提高。开集和闭集是对测试说话人集的一种划分,当测试的说话人集合仅局限在训练集内时,称其为基于闭集的说话人识别;当测试的说话人集合没有训练集限制,任何话者,不论训练与否,均能作为测试集合中的一员,则称其为基于开集的说话人识别。基于开集的说话人识别,不同于闭集说话人识别的关键是开集说话人识别不仅要对测试话者是否是训练集内的话者进行判断,而且若是训练集内的话者,则还要对其进行识别,识别出其是集内的哪个话者。 本文致力于对基于开集说话人识别的研究,提出了一种新的识别方法,即基于SVM和GMM的说话人辨识方法。说话人辨识是指对说话人进行分辨和识别,分辨测试话者是否是训练集内话者,若是训练集内话者则还要识别出其是训练集内的哪位话者。用到的模型是SVM-GMM模型,该模型是结合了支持向量机(SVM)和高斯混合(GMM)两种模型。 支持向量机模型是以统计学习理论中VC维理论和结构风险最小原理为基础,根据有限的样本信息在模型的复杂性与学习能力之间寻求最佳折中,获得了较好的推广能力。大量的实验已经证实支持向量机有着优秀的分类能力,基于此,本研究将其选为第一步粗分类模型。而高斯混合模型是用多个高斯分布的线性组合,拟合说话人的特征分布。它能很好的描述说话人语音特征的内部的相似性。前人的研究也表明该模型是在说话人确认系统表现出良好的性能。故本研究选用高斯混合模型作为第二步精细的确认模型。 在识别阶段,首先用支持向量机模型对测试的话者进行粗分类,然后再用高斯混合模型对分类结果进行确认,判断测试话者是否就是其在粗分类中所分到的类别。若是,则表明该测试话者就是其所分到类别所对应的话者;若否,则表明该测试话者是训练集外话者。本研究就是通过这种方法来实现对说话人进行分辨的。 实验表明,本研究所提出的方法是有效的,能有效的提高对集外话者的分辨率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 宁朝;基于SVM技术的英文字符识别方法[J];大众科技;2005年08期
2 王清翔;仲婷;潘金贵;;基于SVM的日文网页分类[J];广西师范大学学报(自然科学版);2007年02期
3 赵书河,冯学智,都金康,林广发;基于支持向量机的SPIN-2影像与SPOT-4多光谱影像融合研究[J];遥感学报;2003年05期
4 张键;于忠党;栾海滢;;基于SVM的教师评价系统研究[J];教育信息化;2006年03期
5 薄丽玲;;基于SVM的数字图像水印检测算法设计[J];科技情报开发与经济;2007年33期
6 黄秀丽;王蔚;;SVM在非平衡数据集中的应用[J];计算机技术与发展;2009年06期
7 刘晓亮;丁世飞;朱红;张力文;;SVM用于文本分类的适用性[J];计算机工程与科学;2010年06期
8 任俊旭;;基于SVM的企业信息化能力成熟度测度模型研究[J];商业文化(下半月);2011年04期
9 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
10 毛伟;;基于支持向量机的回归应用研究[J];科技资讯;2011年12期
11 王双亭;艾泽天;都伟冰;康敏;;基于SVM不同核函数的多源遥感影像分类研究[J];河南理工大学学报(自然科学版);2011年03期
12 王亮申,欧宗瑛,苏铁明,杨鑫华,曾好平;利用SVM和灰度基元共生矩阵进行图像数据库检索[J];大连理工大学学报;2003年04期
13 业宁,孙瑞祥,董逸生;MLSVM4——一种多乘子协同优化的SVM快速学习算法[J];计算机研究与发展;2005年09期
14 周珂;彭宏;胡劲松;;支持向量机在心电图分类诊断中的应用[J];微计算机信息;2006年09期
15 游智;李战怀;张阳;;基于字符串核的免分词中文文本分类方法[J];计算机工程与应用;2006年26期
16 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[J];微电子学与计算机;2006年S1期
17 王明高;王琰;;基于小波提取特征的SVM目标识别[J];沈阳理工大学学报;2006年05期
18 霍东云;聂峰光;郭力;;利用Medline文摘数据库研究文本分类[J];计算机与应用化学;2007年09期
19 刘忠铁;;基于SVM的图像特征样本集构造技术研究[J];科技情报开发与经济;2007年26期
20 刘太安;杨柏翠;刘欣颖;李涵;;基于特征选择的最少核分类器研究[J];计算机工程与应用;2007年16期
中国重要会议论文全文数据库 前10条
1 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
2 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
3 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
4 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
5 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
6 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
7 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
8 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
9 ;Improved Particle Swarm Optimized SVM for Short-term Traffic Flow Predication[A];第二十六届中国控制会议论文集[C];2007年
10 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
2 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
3 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
4 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
5 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
6 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
7 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
8 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
9 张卫东;广义矩方法GMM的理论本质及方法延伸研究[D];西南财经大学;2010年
10 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈黎;基于SVM和GMM的说话人辨识方法研究[D];武汉理工大学;2011年
2 朱君;基于SVM的说话人拒识策略的研究[D];黑龙江大学;2011年
3 张琪;复杂环境下特定说话人的语音识别研究[D];武汉纺织大学;2012年
4 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年
5 凌锦雯;基于多特征的说话人分割与聚类的研究[D];中国科学技术大学;2011年
6 吴亮春;基于小波变换的说话人语音特征研究[D];西华大学;2010年
7 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
8 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
9 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
10 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
中国重要报纸全文数据库 前10条
1 ;美科学家要研制无声感应“手机”[N];新华每日电讯;2005年
2 张申 蔡莲红;富于表情的虚拟人脸合成[N];计算机世界;2007年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 中国科学院自动化研究所模式识别国家重点实验室 辛乐陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年
5 郭涛;利用SVM虚拟化技术实现容灾[N];中国计算机报;2008年
6 曹文彪;生气与高致[N];文学报;2006年
7 中国科学院自动化研究所模式识别国家重点实验室 周密陶建华;与电脑面谈[N];计算机世界;2007年
8 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
9 刘喜喜;让视频会议多一些人工智能[N];中国计算机报;2008年
10 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978