收藏本站
《哈尔滨工业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

网络环境下说话人识别关键技术研究

姜涛  
【摘要】:说话人识别目的在于使计算机具有通过语音辨别说话人身份的能力。作为生物特征识别关键技术之一,说话人识别技术在身份认证、人机交互、公共安全、信息安全、金融服务等领域具有广阔的应用前景。尤其是近年来,随着计算机网络的迅猛发展,互联网上大量出现的多媒体文件,其中蕴含着丰富的语音信息,这为说话人识别技术提供了新的应用空间。 在常规应用环境下,目前的说话人识别系统已经取得了理想的识别性能。但在网络环境下,其性能急剧下降。根本原因在于网络说话人识别的复杂性,具体表现在:(1)网络语音数据在内容上常常含有多个说话人的语音,而且语音和非语音混合在一起;在编码上多种编码方式并存且以压缩数据的形式封装在多媒体文件中。(2)集外数据量异常庞大,造成大量的误检。(3)数据可能经过多次转码压缩,同一音频数据可能存在多种音频编码的版本,造成训练与测试数据的编码失配,引起大量的漏检。(4)难以确保目标说话人有充足的训练语料,模型训练不充分,从而严重影响识别性能。本文主要研究网络环境下说话人识别的关键技术,为说话人识别技术在网络上的应用提供支撑。内容集中在网络说话人语音数据归一化方法、说话人聚类中的模型测度、极低错误接受率的说话人确认、说话人模型编码补偿及稀疏训练数据下的说话人建模等方面。主要研究内容包括: 1.提出网络说话人语音数据归一化方法。将网络多媒体数据流转换为仅含单一说话人的特征序列,是实现网络环境下说话人识别的基本前提。本文提出了一种网络说话人语音数据归一化方法,用于实现了这一目的。该模型的要点包括:(1)将网络多媒体下载数据包实时地解码为统一、非压缩格式音频数据;(2)对各声道数据进行鲁棒音频特征提取;(3)分段计算各声道间的相似度,去除多个声道的冗余信息;(4)将连续的音频流分割为一系列仅含单一音频内容的音频片段;(5)从音频分割结果中去除非语音片段,仅保留单一说话人语音片段。实验表明,该归一化方法能实时、高效地将网络多媒体下载数据流转换为单一说话人的特征序列。 2.提出用于说话人聚类的广义K-L测度。测试语音片段长度的增加可以提高系统性能。说话人识别系统需要用说话人聚类技术增加测试语音长度。聚类测度在提高聚类性能方面起着重要作用。然而对称K-L散度和广义似然比等已有测度,在语音片段长度差异较大时,性能会有所下降。针对这一问题,本文提出了用于说话人聚类的广义K-L测度。当音频片段模型为单高斯分布时,本文证明了广义K-L测度与已有聚类测度之间的关系;当音频片段模型为多高斯混合分布时,广义K-L测度没有闭式解,本文给出了一种计算量较小的上界计算方法。实验表明,当聚类片段长度差异较大时,广义K-L测度具有更好的性能。 3.提出极低错误接受率的说话人确认方法。数量巨大的集外数据将导致系统错误接受情况频繁发生。本文提出了一种极低错误接受率的说话人确认方法。该方法在经典的GMM-UBM说话人识别框架中添加一个确认判决环节,对识别结果进一步筛选。本文采用了三种筛选策略:加大分析粒度、提高模型的区分能力以及采用有区分性的新特征。实验表明,在大量网络多媒体测试数据情况下,确认判决环节能有效减少错误接受情况。 4.提出说话人模型编码补偿方法。多种编码格式的存在,将直接导致说话人识别系统的测试与训练环境不匹配,进而造成系统漏检情况频繁发生。本文提出了一种模型编码补偿方法,通过学习获得测试数据与训练数据特征分布之间的差异,并以此对模型进行编码补偿。实验表明,该方法能有效降低编码失配造成的漏检情况。 5.提出训练数据稀疏条件下的说话人建模方法。网络环境下训练数据时长较短,导致模型参数的训练不充分,进而引起系统性能下降。本文提出了一种基于移动因子的高斯混合模型补偿方法。该方法首先将模型自适应过程中的变化仿射到低维移动空间中,然后从受训练语音长度影响较小的模型分量中,学习代表模型整体变换规律的移动因子,最后依据该因子对受训练语音长度影响较大的分量进行参数补偿,以提升模型对说话人发音特性的刻画能力。本文对移动因子中的相关参数给出了相应的训练方法,同时研究了移动因子的特性。实验表明,在训练数据稀疏情况下,该方法能明显降低系统的等错误率。 本文对网络环境下说话人识别的若干关键问题进行了深入研究,并给出了有效的解决方法,对说话人识别技术在互联网这一复杂环境中的应用起到推动作用。
【学位授予单位】:哈尔滨工业大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TN912.34

【参考文献】
中国期刊全文数据库 前5条
1 郭武;李轶杰;戴礼荣;王仁华;;采用非监督得分规整和因子分析的说话人确认[J];电子学报;2009年04期
2 唐晖;李弼程;屈丹;张连海;;VoIP压缩码流说话人识别研究[J];计算机工程;2009年07期
3 王欢良;韩纪庆;郑铁然;;高斯混合分布之间K-L散度的近似计算[J];自动化学报;2008年05期
4 郭武;李轶杰;戴礼荣;王仁华;;说话人识别中的因子分析以及空间拼接[J];自动化学报;2009年09期
5 王炜;吕萍;颜永红;;一种改进的基于层次聚类的说话人自动聚类算法[J];声学学报(中文版);2008年01期
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
4 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
5 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
6 吕军;马晓娜;;汉语孤立词声韵分割算法的研究[J];安徽师范大学学报(自然科学版);2008年03期
7 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
8 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
9 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
10 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 徐晨;曹辉;;一种语音信号生成的数字模型的研究[A];第二届西安-上海两地声学学术会议论文集[C];2011年
9 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
7 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
8 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
9 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
4 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
5 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
7 刘继芳;基于计算听觉场景分析的混合语音分离研究[D];哈尔滨工程大学;2009年
8 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
9 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
10 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 胡日勒,宗成庆,徐波;基于统计学习的机器翻译模板自动获取方法[J];中文信息学报;2005年06期
2 陈景东,姚磊,黄泰翼;几种高鲁棒性通道及说话人自适应语音识别算法研究[J];声学学报;1998年06期
3 吕萍,颜永红;基于回归分析的语音识别快速自适应算法[J];声学学报;2005年03期
4 徐向华;朱杰;郭强;;决策树结构对说话人自适应影响的研究[J];声学学报;2006年01期
5 屈微,刘贺平,张海军;基于KL散度的支持向量机方法及应用研究[J];信息与控制;2005年05期
【相似文献】
中国期刊全文数据库 前10条
1 马建,郭建东;说话人识别技术研究[J];福建电脑;2005年01期
2 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
3 周静芳,陈一宁,李科,刘加;基于高斯语音滤波的稳健文本无关说话人识别[J];计算机工程;2005年02期
4 邓浩江,王守觉,邢藏菊,李倩;基于聚类统计与文本无关的说话人识别研究[J];电路与系统学报;2001年03期
5 王炜,王炳锡,王波;信道补偿技术的发展及其在说话人识别上的应用[J];电声技术;2004年04期
6 余华,赵力,吴镇扬;基于FVQ的说话人识别系统的DSP实现[J];电声技术;2004年08期
7 廖贵成,罗文广;一种基于说话人识别技术的自动音量控制系统[J];桂林电子工业学院学报;2004年06期
8 韩雁,陈利华;说话人计算机识别系统的设计与实现[J];浙江大学学报(工学版);2001年02期
9 吴晓娟,韩先花,聂开宝;模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别[J];电子与信息学报;2002年06期
10 单进;;说话人识别技术研究[J];科技资讯;2010年21期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
5 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
6 周静芳;陈一宁;刘润生;;一种新的说话人识别信道补偿技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
7 吴志强;陈珂;迟惠生;;语音识别技术与说话人识别技术的结合——文本无关说话人识别的另一种方法[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 卓群;欧贵文;;基于模糊高斯混合模型的说话人识别算法的一些改进[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
中国重要报纸全文数据库 前10条
1 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
2 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 新城;小声音 大前景[N];计算机世界;2006年
6 本报记者 王璐;科大讯飞:挖掘“说话”技术的商机[N];上海证券报;2008年
7 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
8 陈泰 记者 吴长锋;安徽隆起创新人才高地[N];科技日报;2009年
9 赵海霞;语音识别能否助科大讯飞实现腾飞之梦?[N];通信信息报;2008年
10 ;DTS-HDLBR智能音频编码技术广泛服务广电互联网[N];中国电子报;2005年
中国博士学位论文全文数据库 前10条
1 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
2 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
3 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
4 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
5 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
6 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
7 张冰;人类听觉信息处理机制的心理物理学研究[D];华中科技大学;2012年
8 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年
9 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
10 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
2 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
3 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
4 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
5 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
6 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
7 陈文翔;面向OPHONE手机的说话人识别技术移植研究[D];浙江大学;2011年
8 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
9 徐海华;说话人识别方法及其系统的应用开发研究[D];华中科技大学;2004年
10 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026