收藏本站
《兰州理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

会议室环境下基于音频视频信息融合的多说话人识别

潘鹏  
【摘要】:随着传感器技术的不断发展和音视频处理技术的不断提高,利用音视频融合方法进行说话人识别已经成为当前身份识别领域重要的技术手段。一个典型的应用就是会议室环境下的说话人识别。 本文以AMI语料库中的视听会议为仿真材料,利用音视频融合的方法对会议过程中的多说话人进行了识别研究,具体工作如下: 文章首先利用说话长度、说话能量、说话次数等单一特征以及上述特征的有效组合,对会议过程中的最主要说话人进行了识别。并对各项特征及特征组合的有效性进行了分析和排序。之后,实验利用严格和宽松两种评判标准,对会议中存在多位最主要说话人的情况进行了讨论。 接下来,本文以ICSI RT07s说话人识别系统为参考,设计了基于音频信息的说话人识别系统。在语音活动检测阶段,实验运用高斯混合模型为语音/非语音检测器建模。与ICSI RT07s系统中基于隐马尔可夫模型的语音/非语音检测器相比,基于高斯混合模型的语音检测器原理清晰、可扩展性好,是本次研究的创新之处。之后,实验对建模过程中涉及到的若干可调参数进行了优化,并运用各项可调参数的最优值完成了说话人建模过程。 在视频识别阶段,实验首先从数学原理出发,比较了两种帧间差分算法的优劣,并运用效果较好的一种帧差法对视频片段中面部活动水平最大的参会人进行了检测,将该参会人识别为会议中的说话人。与国外基于MPEG视频压缩格式的检测方法相比,本文的帧差法可以在任何视频格式下使用,是本次研究的另一个创新之处。 在分别得到音频和视频识别结果之后,本文通过贪心的匹配融合算法,对音频和视频识别结果进行匹配关联,完成了不同模态下识别结果的融合。实验运用58段同步的音视频语料对融合算法的有效性进行了测试。结果表明,随着测试语料长度的增加,识别准确率也随之增加。系统对于58段测试语料整体的识别率可达74.14%。 与传统的基于单模态信息的说话人识别相比,利用信息融合手段进行说话人识别可以有效提高识别过程的持续性和鲁棒性。当一类信息受到干扰或发生遮挡时,仍然可以利用另一类信息的有效性,完成说话人的识别。此外,基于音频视频联合的说话人识别,可以使实验人员在识别出说话人语音的同时,进一步看到说话人的相貌,从而使识别结果更加直观生动。这些都是本次研究的意义所在。
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TN912.34

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 施家栋;王建中;;人体运动检测的光流与肤色融合方法[J];北京理工大学学报;2009年04期
2 牛滨;孔令志;罗森林;潘丽敏;郭亮;;基于MFCC和GMM的个性音乐推荐模型[J];北京理工大学学报;2009年04期
3 王宇;李晓利;;核k-凝聚聚类算法[J];大连理工大学学报;2007年05期
4 李淼;李迅波;魏海龙;;基于运动矢量场预测的自适应多模板块运动估计算法[J];电子测量技术;2010年10期
5 朱健翔;苏光大;李迎春;;结合Gabor特征与Adaboost的人脸表情识别[J];光电子·激光;2006年08期
6 束锋;李兴伟;王东明;汪茂;陆锦辉;朱伟强;;基于统计学习的运动目标轨迹跟踪[J];高技术通讯;2009年12期
7 杨炳儒;唐志刚;杨珺;;专家系统中基于认知的知识自动获取机制[J];高技术通讯;2010年05期
8 卢志茂;徐森;刘远超;顾国昌;;使用“分裂-合并"策略改进文本聚类集成算法的研究[J];高技术通讯;2010年07期
9 张锦;成奋华;林雪梅;李睿;王实;;基于子图特征组合的人脸识别技术研究[J];湖南大学学报(自然科学版);2007年06期
10 杨继臣;贺前华;潘伟锵;徐益君;李艳雄;;一种改进的BIC说话人改变检测算法[J];华南理工大学学报(自然科学版);2009年09期
【共引文献】
中国期刊全文数据库 前10条
1 张进;王万平;吴钦章;;基于光电跟踪系统的联合Kalman滤波器算法研究[J];半导体光电;2008年04期
2 王飞;万少松;袁华;;红外/毫米波雷达双模导引末状态的目标跟踪算法[J];兵工自动化;2006年10期
3 武俊;漆德宁;;分布式信息融合系统的拓扑结构设计[J];兵工自动化;2007年03期
4 陈海;胡建旺;;证据理论的研究[J];兵工自动化;2007年11期
5 陈海;胡建旺;;基于转换坐标卡尔曼滤波算法的目标跟踪[J];兵工自动化;2007年12期
6 杨汇源;;雷达组网多目标跟踪系统的设计与实现[J];兵工自动化;2008年01期
7 张淼;胡建旺;周云锋;;改进粒子滤波算法研究[J];兵工自动化;2008年11期
8 苏思;姜礼平;邹明;;基于多分类支持向量机和证据合成方法的多传感器信息融合研究[J];兵工自动化;2010年01期
9 柯熙政;任亚飞;;多尺度多传感器融合算法在微机电陀螺数据处理中的应用[J];兵工学报;2009年07期
10 陈黎;王中许;;不完全量测下光电跟踪系统中冗余测角信息的攫取研究[J];兵工学报;2011年07期
中国重要会议论文全文数据库 前10条
1 曾宪伟;方洋旺;伍友利;王洪强;刘加丛;;一种新的最优制导律[A];第二十六届中国控制会议论文集[C];2007年
2 高媛;张鹏;贾文静;邓自立;;自校正分量解耦信息融合Kalman平滑器[A];第二十六届中国控制会议论文集[C];2007年
3 甄子洋;王志胜;;时滞MIMO系统的信息融合解耦补偿器设计[A];第二十七届中国控制会议论文集[C];2008年
4 廖永汉;郭云飞;彭冬亮;;无源声探测目标跟踪算法[A];第二十七届中国控制会议论文集[C];2008年
5 王志胜;甄子洋;;随机大系统的信息融合最优分散控制[A];第二十七届中国控制会议论文集[C];2008年
6 孙小君;邓自立;;带观测时滞的多传感器多通道ARMA信号信息融合Wiener滤波器[A];第二十七届中国控制会议论文集[C];2008年
7 杜奕;迟毅林;伍星;;信息融合在设备监测和故障诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
8 安剑奇;吴敏;何勇;曹卫华;;基于两级信息融合的高炉料面煤气流分布检测方法[A];第二十九届中国控制会议论文集[C];2010年
9 曹敏;陈鹏;罗学礼;高尚飞;张志生;;基于输电线路工况在线监测多源数据的多维度数据分析研究与应用[A];2011年云南电力技术论坛论文集(入选部分)[C];2011年
10 曹敏;陈鹏;罗学礼;高尚飞;张志生;;基于输电线路工况在线监测多源数据的多维度数据分析研究[A];2011年云南电力技术论坛论文集(优秀论文部分)[C];2011年
中国博士学位论文全文数据库 前10条
1 孟凡彬;基于随机集理论的多目标跟踪技术研究[D];哈尔滨工程大学;2010年
2 蒋鼎国;无线传感器网络农业信息监控系统设计与数据融合研究[D];江南大学;2010年
3 杨红;污水生化处理的智能建模与优化控制策略应用研究[D];华南理工大学;2010年
4 刘美;WSN多目标跟踪节点任务分配及跟踪算法研究[D];华南理工大学;2010年
5 罗石;线控转向系统主动安全预测控制策略的研究[D];江苏大学;2010年
6 陈春雷;多尺度林业遥感数据融合技术的应用研究[D];北京林业大学;2011年
7 李鸿斌;面向目标跟踪的移动无线传感器协作算法研究[D];浙江大学;2010年
8 王忠军;基于GIS的智能高速公路管理关键技术研究与实现[D];解放军信息工程大学;2009年
9 张寿明;基于冶炼过程及终点判断技术的烟化炉智能控制系统研究[D];昆明理工大学;2009年
10 章大勇;激光雷达/惯性组合导航系统的一致性与最优估计问题研究[D];国防科学技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 徐元铭,龚尧南;面向对象型有限元建模专家系统的设计与实现[J];北京航空航天大学学报;2001年03期
2 艾金慰;刘克;;视频序列中运动目标跟踪新方法[J];北京科技大学学报;2006年02期
3 王世刚,陈贺新;运动图像矢量匹配运动补偿压缩算法[J];长春邮电学院学报;2001年02期
4 潘平俊;冯新喜;刘英坤;;一种修正的自适应常加速模型[J];电光与控制;2007年05期
5 焦竹青;熊伟丽;张林;徐保国;;基于曲线拟合的无线传感器网络目标定位算法[J];东南大学学报(自然科学版);2008年S1期
6 谢霞;李宏;郑俊;;基于GMM的说话人辨认系统及其改进[J];电脑与信息技术;2006年02期
7 樊星;卢晶;徐柏龄;;汉语耳语音转换为正常音的研究[J];电声技术;2005年12期
8 陈涛;王成;亢谊援;;基于扩展Kalman滤波的双基地声呐目标轨迹跟踪[J];电声技术;2009年04期
9 李旭,刘军民,刘军;基于菱形搜索算法的运动估计器的FPGA实现[J];电视技术;2005年S1期
10 张纪铃;夏超;黄富良;;一种基于H264编码标准的快速运动估计算法[J];电子测量技术;2009年09期
【相似文献】
中国期刊全文数据库 前10条
1 胡海清;张歆奕;;应用于说话人识别的AdaBoost GMM算法[J];五邑大学学报(自然科学版);2006年03期
2 陈妮;盛利元;肖小清;袁益民;;基于自适应补偿的文本无关说话人识别[J];计算机仿真;2008年06期
3 赵晓伟;孔凡让;王海鸣;龙潜;;基于排列熵和GMM的说话人识别系统[J];机电一体化;2008年10期
4 陈俊;盛利元;;基于LSP线谱对参数的GMM说话人识别系统[J];微计算机信息;2010年04期
5 朱佳;袁晓辉;;基于独立分量分析的说话人自动识别方法的研究[J];仪器仪表与分析监测;2011年01期
6 许允喜;陈方;;基于混合微粒群算法的说话人识别[J];计算机应用;2008年06期
7 辛全超;吴萍;;基于GMM的说话人识别研究与实践[J];计算机与数字工程;2009年06期
8 钱博;唐振民;李燕萍;徐利敏;;基于背景噪声估计的说话人识别算法[J];计算机工程;2008年14期
9 陈芬菲;;基于GMM的说话人识别系统[J];微处理机;2006年04期
10 邱作春;曾庆宁;;独立分量分析在说话人识别技术中的应用[J];声学技术;2008年06期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
5 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
6 卓群;欧贵文;;基于模糊高斯混合模型的说话人识别算法的一些改进[A];第六届全国人机语音通讯学术会议论文集[C];2001年
7 周静芳;陈一宁;刘润生;;一种新的说话人识别信道补偿技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
8 吴志强;陈珂;迟惠生;;语音识别技术与说话人识别技术的结合——文本无关说话人识别的另一种方法[A];第四届全国人机语音通讯学术会议论文集[C];1996年
9 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
中国重要报纸全文数据库 前10条
1 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
2 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 新城;小声音 大前景[N];计算机世界;2006年
6 本报记者 王璐;科大讯飞:挖掘“说话”技术的商机[N];上海证券报;2008年
7 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
8 陈泰 记者 吴长锋;安徽隆起创新人才高地[N];科技日报;2009年
9 记者 郑千里报道;我国生物识别技术研究获得进展[N];科技日报;2001年
10 赵海霞;语音识别能否助科大讯飞实现腾飞之梦?[N];通信信息报;2008年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
3 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
4 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
5 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
6 林琳;基于模糊聚类与遗传算法的说话人识别理论研究及应用[D];吉林大学;2007年
7 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
8 孙俊;基于激励源及其韵律特征的源—目标说话人声音转换研究[D];中国科学技术大学;2006年
9 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
10 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
2 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
3 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
4 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
5 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
6 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
7 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
8 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
9 陈文翔;面向OPHONE手机的说话人识别技术移植研究[D];浙江大学;2011年
10 王琰蕾;基于JFA的汉语耳语音说话人识别[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026