收藏本站
《中国科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的话者确认关键技术研究

龙艳花  
【摘要】:随着说话人识别技术的日益成熟,研究人员开始专注于研究实际应用中复杂环境下的说话人识别技术来不断提升话者识别基线系统的性能,从而逐渐将话者识别技术向实用化推进。近年来,如何提取到更具区分能力的前端特征,建立一个推广性强的说话人模型开始受到说话人识别领域各著名研究机构的重视。与此同时,复杂环境下的信道补偿以及多系统间的融合方法的研究,也日益引起越来越多研究者的关注。在这种背景下,本文从整个系统构建的角度出发,以打造一个具有国际竞争力的话者确认系统为目标,借助于SVM强大的分类能力,围绕着构成一套成功的话者确认系统最关键的核心技术:模型训练,信道补偿、得分融合以及最重要的特征提取这四个方面展开了较系统而深入的研究。从而在较大程度上提升实际系统的性能,本论文的主要工作及创新点如下: 首先,我们着眼于“话者模型训练”这一关键技术进行了较深入的研究:我们首先搭建了一个基于混合高斯超向量-支持向量机(GSV-SVM)的话者确认原型系统,接着对该原型系统的各模块进行了分析和改进。通过大量实验和分析发现SVM应用在话者确认建模时的正负样本非平衡问题严重降低了系统性能。为了解决非平衡问题,我们接着在本文中提出了两种方法:基于话者模型距离的度量方法(SMD)和支持向量重训练方法(SVRT)。SMD通过计算目标与冒认话者之间的模型间距离远近来判断两者之间的相似度,从而选择相似度大的冒认话者数据来做SVM负例样本。而后者则是在保持目标话者数据始终不变的情况下,直接使用SVM的区分特性,从海量数据中选择出最具代表的支持向量(SV)作为最后目标话者模型训练时的负例。这两种算法都在一定程度上解决了非平衡问题,从而达到提高性能的目标。 其次,本论文在GSV-SVM系统框架基础上,针对复杂环境下的信道干扰问题,对现有扰动属性投影算法(NAP)做了几个方面的改进,提出了一种话路变化主成分分析算法(SVPCA-WCCN)。该算法在训练信道空间时,不仅利用了训练数据已知的信道类型标识信息,而且还考虑到在训练过程中增大不同话者模型之间的区分性,使得数据集合中已知的话者标识信息也得到了充分利用。该算法同时还起到了降维的作用。最终结合类内协方差归一化技术,对经过在信道干扰消除后的说话人空间进行投影后的特征向量进行平滑,从而进一步消除训练和测试之间的不匹配因素,得到鲁棒的目标话者模型。本算法在NIST数据库上的各种实验中都取得了较好的结果。 第三,高层韵律特征参数因为其特征提取具有一定的难度而使其发展举步维艰。然而,这些特征的确具有良好的稳定性,不易受信道及噪声的影响,而且还能反映说话者的说话风格、习惯等具有良好区分性的个性特征。为了挖掘存在于高层韵律特征中的话者身份信息来进一步增强已经较成熟的基于底层声学特征参数的话者确认系统的性能,本文提出了一种采用韵律特征的话者确认方法:我们先介绍了韵律特征参数提取的若干细节,接着给出了话者确认系统的整个框架,最后给出了韵律特征在实际应用中需要用到的关键技术-分段加权融合算法(SWF)。在NIST数据库上的实验结果验证了韵律特征和声学参数特征的互补性,系统融合后可以较大地提升性能。该研究同时在话者确认的三大关键技术“特征提取、模型训练、得分融合”中都体现出了其贡献,从整个系统级的角度对基于韵律特征的话者确认系统做了全面的定位和分析。 最后,本文针对话者确认中最本质的关键技术-“特征提取”进行了深入的思考,提出了一种全新的声纹特征,即基于谐波噪声模型HNM分解的频谱子带能量比特征参数(SSERs)。接着在SSERs特征的基础上进行了进一步深入的研究,提出了谐波子带能量和噪声子带能量特征。为了进一步完善新特征参数的提取方法,我们还提出了一种结合能量VAD和基音同步清浊音判断的后处理方法来更好的挖掘原始语音中存在的话者身份信息。我们首先将语音信号帧采用HNM进行分解,得到谐波和噪声两个成分,通过观察和分析语音信号帧在谐波和噪声部分频谱中每个频率子带的能量发现,即使是不同的两个目标话者在发同一个音的时候,这种子带能量的统计特性都能较好的反映他们之间的话者身份差异。为了突出所提特征的作用,我们排除其他因素的干扰,选择在干净环境下录制的中文863数据库进行验证实验。目前的结果表明,基于子带能量的一系列新特征参数已经能够在性能上超过传统的基于声学倒谱参数的特征,这为突破传统说话人识别中前端特征参数提取的深入研究奠定了一定的基础。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TN912.34

【引证文献】
中国博士学位论文全文数据库 前1条
1 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前1条
1 袁磊;基于因子分析和支持向量机的耳语说话人识别[D];苏州大学;2012年
【参考文献】
中国期刊全文数据库 前5条
1 龙艳花;郭武;戴礼荣;;采用支持向量机的说话者确认中的样本平衡[J];中文信息学报;2008年03期
2 龙艳花;郭武;戴礼荣;;一种基于说话者话路变化的主成分分析方法[J];模式识别与人工智能;2009年02期
3 祖漪清;汉语连续语音数据库的语料设计[J];声学学报;1999年03期
4 王仁华;;自动说话人识别[J];信号处理;1991年04期
5 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
中国重要会议论文全文数据库 前1条
1 郭武;戴礼荣;王仁华;;采用UBM更新量的说话人确认[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前1条
1 李轶杰;说话人识别中的信道补偿[D];中国科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 王宏;李鑫;高阳;;基于大学生的汉语说话人识别语音库设计[J];昌吉学院学报;2008年06期
2 赵力,邹采荣,吴镇扬;HMM在说话人识别中的应用[J];电路与系统学报;2001年03期
3 阮玲英;陈立万;;大词汇量连续语音识别探讨[J];电脑与信息技术;2007年04期
4 桂苹,吴镇扬,赵力,王维新;基于VQ的说话人自动识别系统的实现[J];电声技术;2003年10期
5 龚伟;汪鲁才;;基于VQ的与文本相关说话人识别研究[J];电声技术;2006年04期
6 陈红红;荀雨辰;王立石;袁野;丁匡正;陈宬;;浅谈语音领域的创造性审查[J];电声技术;2012年S1期
7 陈宝远;姜海鹏;史玲玲;王正;王晓亮;;矢量量化的音频信号类型确认算法的研究[J];哈尔滨理工大学学报;2010年01期
8 李永宏;于洪志;孔江平;;藏语连续语音语料库设计与实现[J];计算机工程与应用;2010年13期
9 赵晖;林成龙;唐朝京;;基于视频三音子的双模态语料自动选取算法[J];计算机工程;2009年17期
10 沈亚敏;赵晖;张权;唐朝京;;面向语音转换的汉语语料自动选取算法[J];计算机工程;2011年05期
中国重要会议论文全文数据库 前3条
1 狄金海;赵力;;基于改进的FVQ的说话人识别系统的实现[A];2008’促进中西部发展声学学术交流会论文集[C];2008年
2 沈波;;基于特征参数性别规整的说话人识别系统[A];2009’中国西部地区声学学术交流会论文集[C];2009年
3 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 郑建炜;基于核方法的说话人辨认模型研究[D];浙江工业大学;2010年
3 张鹏洲;文语转换系统研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
4 李超雷;交互式语言学习系统中的发音质量客观评价方法研究[D];中国科学院研究生院(电子学研究所);2007年
5 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
6 周维;汉语语音同步的真实感三维人脸动画研究[D];中国科学技术大学;2008年
7 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
8 黄浩;基于区分性原理的汉语语音识别中声调问题的研究[D];上海交通大学;2008年
9 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
10 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
2 丁玉忠;基于电话语音的维吾尔语关键词识别系统研究[D];新疆大学;2011年
3 李晓阳;基于GMM-UBM/SVM的维吾尔语电话信道说话人识别系统的研究[D];新疆大学;2011年
4 武宁;复杂信道下的说话人识别技术[D];复旦大学;2011年
5 陈伟;信道失配条件下的话者确认研究[D];中国科学技术大学;2011年
6 顾晓江;不匹配信道下耳语音说话人识别研究[D];苏州大学;2011年
7 颜宗岳;数字波导网格模型及语音网格参数估计[D];苏州大学;2011年
8 郑泽萍;基于保局部核多元RVM的说话人识别方法研究[D];浙江工业大学;2011年
9 王震宇;基于支持向量数据描述的说话人识别研究[D];浙江工业大学;2011年
10 徐炼东;语音识别在访问控制的应用[D];电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前7条
1 沙丹青,栗学丽,徐柏龄;耳语音声调特征的研究[J];电声技术;2003年11期
2 王尔玉;郭武;李轶杰;戴礼荣;王仁华;;采用模型和得分非监督自适应的说话人识别[J];自动化学报;2009年03期
3 杨莉莉,李燕,徐柏龄;汉语耳语音库的建立与听觉实验研究[J];南京大学学报(自然科学版);2005年03期
4 林玮;杨莉莉;徐柏龄;;基于修正MFCC参数汉语耳语音的话者识别[J];南京大学学报(自然科学版);2006年01期
5 王敏;赵鹤鸣;;基于多带解调分析和瞬时频率估计的耳语音话者识别[J];声学学报;2010年04期
6 王仁华;;自动说话人识别[J];信号处理;1991年04期
7 李轶杰;郭武;戴礼荣;;话者识别的信道补偿[J];小型微型计算机系统;2008年12期
中国重要报纸全文数据库 前1条
1 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;[N];计算机世界;2001年
中国博士学位论文全文数据库 前1条
1 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前1条
1 王琰蕾;基于JFA的汉语耳语音说话人识别[D];苏州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王炜,刘峰,吴淑珍;RASTA滤波在语音通信质量客观评价中应用的研究[J];北京大学学报(自然科学版);2003年05期
2 史静朴,陈际,陈向东,陈川,王守觉;用神经计算机的说话人确认系统及其应用[J];电子学报;1999年10期
3 邓浩江,杜利民,万洪杰;似然得分归一化及其在与文本无关说话人确认中的应用[J];电子与信息学报;2005年07期
4 韩纪庆,王承发,高文;二阶CMS用于电话语音识别的通道补偿[J];哈尔滨工业大学学报;1998年06期
5 陈雁翔,戴蓓倩,周曦,李辉;基于对话语音的与文本无关的说话人确认系统的研究[J];中文信息学报;2004年02期
6 肖述才,欧智坚,王作英;语音识别中的一种说话人聚类算法[J];中文信息学报;2005年04期
7 罗振声,郑碧霞;汉语句型自动分析和分布统计算法与策略的研究[J];中文信息学报;1994年02期
8 刘波;戴礼荣;王仁华;杜俊;李锦宇;;基于双高斯GMM的特征参数规整及其在语音识别中的应用[J];自动化学报;2006年04期
9 王仁华;;自动说话人识别[J];信号处理;1991年04期
10 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
中国博士学位论文全文数据库 前1条
1 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王清翔;仲婷;潘金贵;;基于SVM的日文网页分类[J];广西师范大学学报(自然科学版);2007年02期
2 赵书河,冯学智,都金康,林广发;基于支持向量机的SPIN-2影像与SPOT-4多光谱影像融合研究[J];遥感学报;2003年05期
3 张键;于忠党;栾海滢;;基于SVM的教师评价系统研究[J];教育信息化;2006年03期
4 薄丽玲;;基于SVM的数字图像水印检测算法设计[J];科技情报开发与经济;2007年33期
5 黄秀丽;王蔚;;SVM在非平衡数据集中的应用[J];计算机技术与发展;2009年06期
6 刘晓亮;丁世飞;朱红;张力文;;SVM用于文本分类的适用性[J];计算机工程与科学;2010年06期
7 任俊旭;;基于SVM的企业信息化能力成熟度测度模型研究[J];商业文化(下半月);2011年04期
8 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
9 毛伟;;基于支持向量机的回归应用研究[J];科技资讯;2011年12期
10 王双亭;艾泽天;都伟冰;康敏;;基于SVM不同核函数的多源遥感影像分类研究[J];河南理工大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
3 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
4 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
5 ;Improved Particle Swarm Optimized SVM for Short-term Traffic Flow Predication[A];第二十六届中国控制会议论文集[C];2007年
6 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 邵杰;叶宁;容亦夏;;基于SVM的多波束测深数据滤波[A];第二十九届中国控制会议论文集[C];2010年
8 于湘涛;周峰;张兰;魏超;;基于SVM和田口方法的石英挠性加速度计健壮性设计[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
9 ;Adaptive Control of Nonlinear System Based on SVM Online Algorithm[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 张睿;陈雪;马建文;;基于递归SVM的高光谱数据特征选择算法研究[A];第八届成像光谱技术与应用研讨会暨交叉学科论坛文集[C];2010年
中国重要报纸全文数据库 前10条
1 郭涛;利用SVM虚拟化技术实现容灾[N];中国计算机报;2008年
2 本报记者 韩露;乱军之中智者胜[N];证券时报;2000年
3 ;基于网络层的存储虚拟化是主流[N];中国计算机报;2008年
4 本报记者 郭平;LSI发布新存储虚拟化管理器[N];计算机世界;2008年
5 吴为;西安市政府为软件业出台“硬九条”[N];中国机电日报;2001年
6 钟启;三诺公司启动音乐装饰工程[N];中国企业报;2000年
7 刘;LSI Engenio 7900存储面向中端客户[N];电脑商报;2008年
8 晓锡;CMM在中国:透视与展望[N];市场报;2001年
9 王琨月;存储虚拟化市场的博弈[N];网络世界;2008年
10 中投证券 罗延军;东软集团(600718)业务增长速度加快[N];证券时报;2009年
中国博士学位论文全文数据库 前10条
1 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
2 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
3 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
4 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
5 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
6 高二中;对话电话语音的话者确认研究[D];中国科学技术大学;2011年
7 曹志坤;制冷陈列柜性能仿真SVM方法的研究及应用[D];上海交通大学;2010年
8 王金林;基于混沌时间序列和SVM的入侵检测系统研究[D];天津大学;2010年
9 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
10 渐令;基于核的学习算法与应用[D];大连理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
2 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
3 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
4 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
5 曹云生;基于支持向量机(SVM)的森林生态系统健康评价及预警[D];河北农业大学;2011年
6 张汉女;基于SVM的海岸线提取方法研究[D];东北师范大学;2010年
7 姚玉;基于GA-SVM算法的细胞色素酶P450突变预测[D];上海交通大学;2011年
8 陈燃燃;基于SVM算法的web分类研究与实现[D];北京邮电大学;2010年
9 陈卓;基于聚类和SVM主动反馈的图像检索方法[D];重庆大学;2010年
10 冯青;基因微阵列数据的SVM分类器优化方法[D];东北师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026