收藏本站
《浙江工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于核方法的说话人辨认模型研究

郑建炜  
【摘要】:说话人识别技术由于其独特的便利性、精确性和经济性,被认为是最自然的生物认证技术,在安全监控、司法鉴定、电子侦听、金融服务等方面都具有广泛的应用前景。当前,说话人识别系统开发已逐渐从理论研究转向实际应用,对其要求也随着应用环境的变更而越来越高,不仅期望具有极高的识别率,还要具有较高的实时性,此外,系统构建便捷性、模型扩展能力等都不容忽视。近十几年来,基于核函数的分类算法已成为模式识别领域的研究焦点,它有效克服了传统模式识别方法中局部极小和非完全统计分析的缺点,具有很强的非线性处理能力,而说话人识别系统中输入的语音特征参数正好是非线性的且局部特性复杂。因此,应用核分类模型于说话人识别时能够获得很好的效果。 本文针对说话人识别中的辨认任务,以小样本语料库为应用对象,着重研究模型域的改进,提出具有各种优势的核分类方法。主要工作如下: 1.深入分析当前主导的说话人识别模型GMM-UBM和SVM。产生性模型-高斯混合模型(GMM)一直作为说话人识别的基准技术,但其直接应用存在训练样本量需求过大的缺陷,而统一背景模型(UBM)可以削减目标说话人的输入数据,且效果更比单纯GMM优越。区分性模型-支持向量机(SVM)具有最大分类间隔、全局最优解、稀疏性能等优势,在小样本说话人识别应用中效果比GMM-UBM更佳。本文分别从原理、优缺点、融合策略、应用细节等几方面对两者作了细致地分析。通过说话人辨认实验表明,GMM-UBM模型的测试实时度稍逊,而两分类模型SVM的多元扩展能力较为薄弱。 2.联合相关向量机与高斯混合模型进行说话人辨认。相关向量机(RVM)分类模型与SVM具有一致的判决公式,同样有很强的泛化能力,并且其稀疏性更好;此外,RVM使用概率输出克服了SVM二值结果的缺点,又无需进行繁琐的惩罚因子C计算。但是在与文本无关的话者辨别中,RVM模型构建过程却过于缓慢。本文将二元模型RVM引入说话人辨认领域,并采用快速训练算法进行基于帧的话者识别。为进一步提升模型构建速率,取GMM统计特征参数作为RVM的输入矢量,既能够有效地提炼话者个体性信息,解决大样本数据情形中的RVM训练问题,又结合了统计模型鲁棒性高和分辨模型辨别效果好的优点。实验结果表明,RVM与SVM模型扩展能力一致,识别率相仿,但测试实时性能明显优于SVM。 3.提出多元核Logistic回归(MKLR)说话人辨认方法。虽然RVM与SVM都具有优秀的识别性能和测试实时度,但二元模型的本质使得两者都无法直接应用于说话人辨认。本文针对基于帧的与文本无关说话人辨认多分类目标和大训练样本的情况,将经典核Logistic回归(KLR)模型进行多元化变形,叠加L2惩罚因子,以提高模型泛化能力。把最优目标函数负对数Logistic公式对偶化,并利用序列最小优化算法进行模型训练,不仅保持了原KLR模型的强分辨能力,也加快了模型构建过程。实验结果表明,MKLR在辨认任务中无需进行繁复的多分类扩展,且识别率达到99.5%。 4.提出概率稀疏型多元核Logistic说话人辨认方法(SMKLC)。MKLR的缺陷是测试速率低下,因此,本文对经典Logistic回归模型进行多元化扩展后,为参数叠加RVM中采用的稀疏性先验概率分布,在不引入新的先验信息性参数前提下使模型具有稀疏结果。模型训练采用自下向上贪婪算法,规避了大型矩阵逆操作,约简了训练过程计算量。说话人辨认实验结果表明,SMKLC在保持高识别性能的同时,其测试用时仅需0.0057秒/短语。 5.提出保局部核Fisher鉴别说话人辨认方法(LWFDA)。结合核Fisher判别(KFD)方法与局部保持投影(LPP)两者的优势,将亲和因子引入KFD中的类内散度矩阵,保留KFD全局最优投影能力的同时,又凸现LPP的局部保持能力,对重叠(离群)样本与多态分簇样本都能实现有效的分类投影,并给出了快速求解算法,解决大样本训练时出现的内存溢出问题,以适应于说话人辨认。实验结果表明,LWFDA识别率与MKLR一致,测试用时较MKLR缩减了9.25%。 6.提出增强型数据域描述说话人辨认方法(EDDD)。为适应开集的辨认任务,以支持向量域描述(SVDD)算法为基础,通过一种简易的形式引入数据间密度因子,使处于不同区域的数据对分类器的作用不再被同等对待,高密度区数据对分类支撑域的作用被强化,而低密区即呈零星分布的数据作用被削弱,结果使分类超球体自动靠近数据高密区而提高其识别性能。说话人辨认实验结果表明,EDDD模型的识别性能全面优于GMM。 本文主要研究说话人辨认系统中的模型部分,提出或改进了各类基于核的分类方法,包括二元分类器、多元分类器、单类分类器、降维分类器等,它们各自都具有得天独厚的优势,能满足不同需求的说话人辨认系统。
【学位授予单位】:浙江工业大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TN912.34

【引证文献】
中国硕士学位论文全文数据库 前1条
1 毛永刚;基于相关向量机的说话人判别研究[D];电子科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期
2 丁二锐;曾平;姚勇;王义峰;;基于自适应约简相关向量机的光照色度估计(英文)[J];Journal of Southeast University;2007年02期
3 尹安容;谢湘;匡镜明;;Hadamard纠错码结合支持向量机在多分类问题中的应用[J];电子学报;2008年01期
4 成萍;司锡才;姜义成;许荣庆;;基于稀疏贝叶斯学习的稀疏信号表示ISAR成像方法[J];电子学报;2008年03期
5 林琳;王树勋;陈建;;基于可区分性加权的模糊核说话人识别[J];电子学报;2008年07期
6 白莹;赵振东;戚银城;王斌;郭建勇;;基于小波神经网络的与文本无关说话人识别方法研究[J];电子与信息学报;2006年06期
7 陈存宝;赵力;;嵌入自联想神经网络的高斯混合模型说话人辨认[J];电子与信息学报;2010年03期
8 李战明;陈迪;;一种基于小波神经网络混合模型的说话人识别方法[J];兰州理工大学学报;2007年02期
9 邢玉娟;谭萍;李明;;一种新的说话人识别序列特征提取方法[J];兰州理工大学学报;2009年04期
10 陈佳;颜学峰;钱锋;;基于贝叶斯学习的关联向量机及其在软测量中的应用[J];华东理工大学学报(自然科学版);2007年01期
中国博士学位论文全文数据库 前9条
1 任双桥;支撑矢量机理论与应用研究[D];国防科学技术大学;2006年
2 张永;基于模糊支持向量机的多类分类算法研究[D];大连理工大学;2008年
3 于雪莲;基于核方法和流形学习的雷达目标距离像识别研究[D];电子科技大学;2008年
4 陈渤;基于核方法的雷达高分辨距离像目标识别技术研究[D];西安电子科技大学;2008年
5 王建国;特征抽取方法研究及其在人脸识别中的应用[D];南京理工大学;2008年
6 周晓飞;几种新型分类器设计及其在人脸识别应用中的研究[D];南京理工大学;2008年
7 李波;基于流形学习的特征提取方法及其应用研究[D];中国科学技术大学;2008年
8 杨利平;保局子空间人脸特征提取及识别方法研究[D];重庆大学;2008年
9 张成元;基于子空间分析的人脸识别算法研究[D];北京交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 吴定海;张培林;任国全;傅建平;;基于最大间隔超球分类器的柴油机异常检测研究[J];兵工学报;2011年07期
2 王自强;段爱玲;张德贤;;基于自适应核函数的支持向量数据描述算法[J];北京化工大学学报(自然科学版);2008年02期
3 何飞;黎敏;阳建宏;徐金梧;;基于小波相关向量机的产品质量模型[J];北京科技大学学报;2009年07期
4 陈永良;李学斌;;基于核函数理论的系统聚类分析[J];吉林大学学报(地球科学版);2010年05期
5 潘明清;周晓军;吴瑞明;雷良育;;基于主元分析的支持向量数据描述机械故障诊断[J];传感技术学报;2006年01期
6 邓天民;于勇;邵毅明;;一种新的车辆图像识别分类算法研究[J];重庆交通大学学报(自然科学版);2008年06期
7 张云;姜义成;李宏博;;一种改善SAR对舰船目标成像质量的新方法研究[J];电波科学学报;2009年04期
8 胡正平;路亮;冯春生;;基于高维空间凸壳数据描述的一类分类算法研究[J];燕山大学学报;2011年04期
9 王兆强;胡昌华;周志杰;孔祥玉;;基于新的AFCM算法的陀螺仪漂移预测[J];电光与控制;2011年04期
10 马志友,杨莹春,吴朝晖;二次特征提取及其在说话人识别中的应用[J];电路与系统学报;2003年02期
中国重要会议论文全文数据库 前10条
1 陈克兵;朱建宁;侍洪波;;基于RVM与COM技术的德士古气化炉炉温软测量系统[A];第二十七届中国控制会议论文集[C];2008年
2 ;Data-driven Process Monitoring Method Based on Dynamic Component Analysis[A];中国自动化学会控制理论专业委员会B卷[C];2011年
3 朱孝开;杨德贵;;基于多层SVDD的模式识别方法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
4 许鑫;苏开娜;胡起秀;;几种改进的MFCC特征提取方法在说话人识别中的应用[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
6 ;Combining SOM and local minimum enclosing spheres for novelty detection[A];2009中国控制与决策会议论文集(3)[C];2009年
7 高原;景新幸;;基于线性与非线性特征组合的说话人识别系统研究[A];2006年声频工程学术交流会论文集[C];2006年
8 任华娟;景新幸;;用于说话人识别的FWMC特征参数提取[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
9 曹薇薇;刘国华;陈国涛;赵峰;;模拟退火在支持向量数据描述的参数选取和特征选择中的应用[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
10 袁冬梅;俞一彪;颜祥;戴志强;;非线性频谱变换的说话人识别性能分析[A];2006’和谐开发中国西部声学学术交流会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 林颖;基于水平集方法的图像分割关键技术研究[D];哈尔滨工程大学;2010年
2 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
3 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
4 高艺;能源自给低功耗无线传感器网络关键技术研究[D];南开大学;2010年
5 姚伏天;基于高斯过程的高光谱图像分类研究[D];浙江大学;2011年
6 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
7 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
8 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
9 段铁城;基于人机工程学的油锯伐木作业姿势研究[D];东北林业大学;2011年
10 杨茂龙;相关投影分析在特征抽取中的应用研究[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 从静;电力电子装置故障诊断技术研究[D];哈尔滨工程大学;2010年
2 袁铄;基于小波网络音频信号处理技术[D];大连理工大学;2010年
3 穆大芸;多变量时间序列预测与储备池优化方法研究[D];大连理工大学;2010年
4 刘美玲;基于综合策略支持向量机的孤立点检测技术[D];大连理工大学;2010年
5 张瑜;支持向量机在电信客户欺诈检测的应用研究[D];长沙理工大学;2010年
6 吴荣娣;基于特征分类直方图均衡的鲁棒性语音识别研究[D];苏州大学;2010年
7 张少捷;基于工业过程数据的故障检测方法研究[D];华东理工大学;2011年
8 孙清涛;PTA装置溶剂脱水塔混合智能建模算法研究[D];华东理工大学;2011年
9 王坤;工业装置非高斯过程的性能监控与故障诊断[D];华东理工大学;2011年
10 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 尹安容;谢湘;匡镜明;;Hadamard纠错码结合支持向量机在多分类问题中的应用[J];电子学报;2008年01期
2 何伟;胡又文;张玲;陈方泉;;基于FPGA的说话人识别系统设计与实现[J];重庆大学学报(自然科学版);2007年09期
3 陈实;马天骏;高有行;;用行人轮廓的分布直方图分类和识别步态[J];计算机研究与发展;2009年02期
4 郑泽萍;王万良;郑建炜;;基于保局部核RVM的说话人识别方法[J];计算机工程;2011年14期
5 邱政权;尹俊勋;杨俊;;在噪声环境下的分级说话人辨识[J];控制与决策;2007年05期
6 李滔;王俊普;吴秀清;唐金辉;;后验概率估计及其应用:基于核Logistic回归的方法[J];模式识别与人工智能;2006年06期
7 刘波;郝志峰;肖燕珊;;交互迭代一对一分类算法[J];模式识别与人工智能;2008年04期
8 龙艳花;郭武;戴礼荣;;一种基于说话者话路变化的主成分分析方法[J];模式识别与人工智能;2009年02期
9 高荣春;韩纪庆;张磊;;说话人识别中基于最大后验概率的通道补偿方法[J];通信学报;2009年03期
10 田斌,易克初;一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法[J];声学学报;2003年01期
中国博士学位论文全文数据库 前4条
1 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年
2 任双桥;支撑矢量机理论与应用研究[D];国防科学技术大学;2006年
3 张永;基于模糊支持向量机的多类分类算法研究[D];大连理工大学;2008年
4 于雪莲;基于核方法和流形学习的雷达目标距离像识别研究[D];电子科技大学;2008年
中国硕士学位论文全文数据库 前1条
1 王震宇;基于支持向量数据描述的说话人识别研究[D];浙江工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期
2 段新,黄新宇,吴淑珍;与文本无关的说话人辨认系统中一种新的使用基音周期方法研究[J];北京大学学报(自然科学版);2003年05期
3 张栒;邓辉文;;基于减法聚类与聚类有效性评判的FCM聚类[J];重庆工学院学报;2006年05期
4 曲天书,戴逸松;基于离散小波变换的自适应语音消噪方法[J];电工技术学报;2001年02期
5 丁佩律,张立明;结合主分量分析及Fisher准则的说话人识别方法研究[J];电路与系统学报;2002年01期
6 刘党辉,沈兰荪,Kin-Man Lam;人脸识别研究进展[J];电路与系统学报;2004年01期
7 董春曦,杨绍全,饶鲜,汤建龙;支持向量机推广能力估计方法比较[J];电路与系统学报;2004年04期
8 杨彦;赵力;;一种改进的模糊C-均值聚类算法在说话人识别中的应用[J];电声技术;2006年01期
9 周杰,卢春雨,张长水,李衍达;人脸自动识别方法综述[J];电子学报;2000年04期
10 焦李成,张莉,周伟达;支撑矢量预选取的中心距离比值法[J];电子学报;2001年03期
中国博士学位论文全文数据库 前10条
1 廖学军;基于高分辨距离像的雷达目标识别[D];西安电子科技大学;1999年
2 田斌;实用化汉语语音识别理论及关键技术研究[D];西安电子科技大学;1999年
3 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
4 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年
5 邢孟道;基于实测数据的雷达成像方法研究[D];西安电子科技大学;2002年
6 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
7 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
8 李伟红;基于支持向量机的人脸特征选择及识别研究[D];重庆大学;2006年
9 陈伏兵;人脸识别中鉴别特征抽取若干方法研究[D];南京理工大学;2006年
10 谢永华;人脸特征抽取与分类器设计若干问题的研究[D];南京理工大学;2006年
中国硕士学位论文全文数据库 前1条
1 章万锋;基于PCA与LDA的说话人识别研究[D];浙江大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期
2 勾轶,刘晓丽,陈长征;基于小波与神经网络的说话人身份识别[J];沈阳工业大学学报;2005年01期
3 田松乾;语用学在英语语法教学中的作用[J];现代情报;2000年05期
4 夏菁,尹俊勋,黄建成,黄锋;基于正弦加噪声模型的说话人转换方法[J];电声技术;2005年02期
5 黄金明;说话人身份识别系统的设计与实现[J];计算机工程;2004年S1期
6 俞振利,张礼和;从任意连续语音中实时提取说话人特征及三维显示[J];浙江大学学报(理学版);1992年04期
7 岳喜才,伍晓宇,郑崇勋;用神经阵列网络进行文本无关的说话人识别[J];声学学报(中文版);2000年03期
8 彭煊,王炳锡;基于高斯混合模型差别度量的说话人聚类[J];计算机工程与应用;2005年05期
9 杜江,朱柯;智能麦克风阵列语音分离和说话人跟踪技术研究[J];电子学报;2005年02期
10 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期
中国重要会议论文全文数据库 前10条
1 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
2 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
3 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
4 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
5 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
6 蒋冬梅;赵荣椿;;基于尺度描述的说话人归一化语音特征[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
7 周绍良;;修绠山房梓《宣和遗事》跋[A];水浒争鸣(第一辑)[C];1982年
8 欧贵文;邓英;;基于说话人的对话语音分割[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 屈丹;魏鑫;王炳锡;;说话人归一化技术用于语言辨识系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
10 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 ;美科学家要研制无声感应“手机”[N];新华每日电讯;2005年
2 张申 蔡莲红;富于表情的虚拟人脸合成[N];计算机世界;2007年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 中国科学院自动化研究所模式识别国家重点实验室 辛乐陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年
5 曹文彪;生气与高致[N];文学报;2006年
6 中国科学院自动化研究所模式识别国家重点实验室 周密陶建华;与电脑面谈[N];计算机世界;2007年
7 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
8 刘喜喜;让视频会议多一些人工智能[N];中国计算机报;2008年
9 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
10 秋水;挑吃“绿色” 敲响食品安全警钟[N];中国改革报;2006年
中国博士学位论文全文数据库 前10条
1 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
2 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
3 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
4 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
5 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
6 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
7 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年
8 孙洪威;现代汉语转折副词语义功能研究[D];吉林大学;2014年
9 闵星雅;助动词“能”和“会”的认知研究[D];上海师范大学;2007年
10 祝东平;汉语时间感知模式与相关汉语因素研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 默盼;论宋代说话人[D];渤海大学;2012年
2 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年
3 张力;说话人分段与聚类技术研究[D];解放军信息工程大学;2012年
4 高娅;说话人转变检测的研究与实现[D];南京邮电大学;2013年
5 赵洪刚;基于对话型语音的说话人在线识别技术研究[D];黑龙江大学;2010年
6 李向格;关于“レてもぃぃ”与“レてぃぃ”的意义分析[D];吉林大学;2012年
7 黄雪莲;韩国语‘(?)’的话语功能分析[D];延边大学;2012年
8 毛永刚;基于相关向量机的说话人判别研究[D];电子科技大学;2012年
9 徐晨;基于支持向量机的说话人辨别研究[D];陕西师范大学;2013年
10 陈芝;基于人工神经网络模型的说话人转换算法研究[D];南京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026