收藏本站
《大连理工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

音视频联合说话人定位与跟踪方法研究

金乃高  
【摘要】: 说话人定位与跟踪是人机交互研究中的重要课题,在视频会议系统、多媒体系统以及机器人等领域有着广泛的应用。通常,基于计算机视觉的人脸或人体跟踪方法与基于计算机听觉的声源定位方法都可作为解决说话人定位与跟踪问题的基本手段。然而,这些单模态的定位与跟踪方法难以适应复杂的动态环境,人脸跟踪方法容易受到视频遮挡以及光照、姿态变化等因素的影响,而背景噪声与房间混响则制约着声源定位方法的性能。因此,采用信息融合技术对说话人的音视频双模态信息进行处理,则成为提高说话人定位与跟踪系统精度与鲁棒性的重要手段。 音视频联合说话人定位与跟踪是计算机听觉与计算机视觉相互融合的一个重要方向,其目的是综合利用说话人的音频与视频信息来估计说话人的空间位置。本文对音视频联合说话人定位与跟踪问题进行了深入研究,取得的研究成果如下: (1)将多传感器信息融合技术用于说话人定位与跟踪问题,提出了一种基于动态贝叶斯网络的音视频联合说话人定位与跟踪方法。在动态贝叶斯网络框架中,该方法分别采用麦克风阵列声源定位、基于肤色的人脸跟踪以及音视频互信息最大化三种感知方式获取与说话人位置相关的测量信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的实时性。 (2)将加权子空间拟合算法应用于麦克风阵列声源定位问题,提出一种宽带加权子空间拟合声源定位方法。该方法在贝叶斯估计理论框架下,结合语音信号的宽带特性,构造了一个适用于语音信号的目标函数,采用粒子滤波对该目标函数进行全局优化,从而有效地确定声源的空间位置。 (3)综合考虑语音建立信号与说话人运动模型在抑制房间混响中的作用,提出一种基于分层采样粒子滤波的麦克风阵列声源跟踪方法。在实际的中小型房间环境中,由于墙壁、地面、桌面的反射作用,麦克风阵列接收到的语音信号中通常含有混响成分,从而影响声源定位与跟踪系统的性能。基于分层采样粒子滤波的声源跟踪方法从语音信号中提取出无混响的建立信号,将其作为观测信息来计算麦克风阵列波束形成器的输出能量,同时考虑语音信号不同频率成分在声源定位中的作用,采用分层采样方法提高粒子的采样效率,从而增强跟踪系统的实时性。 (4)考虑到说话人唇动信息对语音感知的增强作用,将可视语音引入语音提取问题,提出了一种基于粒子滤波的双模态语音提取方法。双模态语音提取方法在粒子滤波框架下,根据音视频互信息与语音峭度来确定分离矩阵,从而实现语音信号的有序提取。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TN912.3

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 刘肖静;孙超;;一种利用线性预测定位的声源跟踪方法[J];电声技术;2010年05期
中国博士学位论文全文数据库 前1条
1 于雪松;基于单目无标记点的人体3D运动估计关键技术的研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前4条
1 马先哲;基于TDOA的声源定位及与视频信息融合的研究[D];黑龙江大学;2010年
2 郑景润;智能环境下基于音频视频信息融合的多说话人跟踪[D];兰州理工大学;2011年
3 曾清乐;基于视频图像序列的稳像和目标跟踪技术研究[D];大连理工大学;2011年
4 何裔玺;基于DSP的说话人定位跟踪系统的设计[D];兰州理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 刘先省,申石磊,潘泉,张洪才;基于信息熵的一种传感器管理算法[J];电子学报;2000年09期
2 杨淑媛,刘芳,焦李成;量子进化策略[J];电子学报;2001年S1期
3 张葛祥,李娜,金炜东,胡来招;一种新量子遗传算法及其应用[J];电子学报;2004年03期
4 杨俊安,庄镇泉,史亮;多宇宙并行量子遗传算法[J];电子学报;2004年06期
5 赵春晖,李福昌;基于遗传算法的宽带加权子空间拟合测向算法[J];电子学报;2004年09期
6 李雄,黄建国,张群飞;基于重要性抽样的最大似然方位估计方法[J];电子学报;2005年08期
7 陈卫刚,戚飞虎;一种改进的窄带算法在彩色序列图像人脸跟踪中的应用[J];电子与信息学报;2005年04期
8 夏培肃;量子计算[J];计算机研究与发展;2001年10期
9 黄福珍,苏剑波;基于Level Set方法的人脸轮廓提取与跟踪[J];计算机学报;2003年04期
10 孙即祥,史慧敏,王宏强;信息融合中的有关熵理论[J];计算机学报;2003年07期
中国博士学位论文全文数据库 前1条
1 居太亮;基于麦克风阵列的声源定位算法研究[D];电子科技大学;2006年
中国硕士学位论文全文数据库 前1条
1 李昕;基于音频视频信息融合的人物跟踪及其应用[D];清华大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 陈静,彭安金;基于余弦调制滤波器组的电力系统谐波分析[J];安徽电气工程职业技术学院学报;2005年03期
2 林鹰;付洋;;基于颜色与边界几何特征的移动侦测布防方法[J];安防科技;2008年05期
3 程一斌,汪松,任彬;利用弹簧模型提取物体轮廓[J];安徽大学学报(自然科学版);2001年02期
4 张坤,罗立民,舒华忠,杨芳;基于Level Set方法的Visible Human Being虚拟人图像处理[J];安徽大学学报(自然科学版);2005年04期
5 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
6 张雪飞;;基于GVF模型的蔬果图像快速分割方法[J];安徽农业科学;2010年05期
7 刘向远;张穗萌;施明华;;实际气体的单泡超声空化动力学方程及其数值分析[J];安徽师范大学学报(自然科学版);2010年05期
8 赵莹;张学东;;改进水平集的车辆检测算法[J];辽宁科技大学学报;2010年05期
9 陈时华;;Properties of the two- and three-dimensional quantum dot qubit[J];半导体学报;2010年05期
10 李梦东,阮秋琦;利用变形模板提取嘴部特征的算法[J];北方交通大学学报;2002年02期
中国重要会议论文全文数据库 前10条
1 Tzyh-Jong Tarn;;Advances in Quantum Computing and Control[A];Proceedings of International Conference on Micro & Nano Systems 2002(ICMNS 2002)[C];2002年
2 张振福;赵云;;基于Westervelt方程的时域有限差分法模拟理想介质中非线性声场的传播[A];第十一届全国非线性振动学术会议暨第八届全国非线性动力学和运动稳定性学术会议论文集[C];2007年
3 张立;邵闯;;隔热材料声载荷修正测试方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
4 张波;陈天宁;;多孔烧结金属纤维材料声学参数优化识别[A];第九届全国振动理论及应用学术会议论文集[C];2007年
5 左言言;张焱;刘海波;;车室内部声场的声——振耦合分析[A];第九届全国振动理论及应用学术会议论文集[C];2007年
6 董天晓;王丽坤;秦雷;李莉;吴炜伟;王钢;;压电圆柱叠堆换能器的有限元分析[A];第三届全国压电和声波理论及器件技术研讨会论文集[C];2008年
7 侯峰;沈重;秦浩明;;气流条件下微穿孔板结构吸声特性研究[A];第十一届全国空气弹性学术交流会会议论文集[C];2009年
8 杜建镔;宋先凯;;基于声学准则的阻尼材料分布优化设计[A];结构及多学科优化工程应用与理论研讨会’2009(CSMO-2009)论文集[C];2009年
9 ;Detecting and Tracking Targets around UGV with Panoramic Video[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 6)[C];2005年
10 ;Study of Motion Detection Algorithm Based on Optical Flow and Background Filtering[A];第七届国际测试技术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 王玉全;基于全景视觉的移动机器人同时定位与地图创建方法研究[D];哈尔滨工程大学;2010年
3 孟凡彬;基于随机集理论的多目标跟踪技术研究[D];哈尔滨工程大学;2010年
4 王小旭;非线性SPKF滤波算法研究及其在组合导航中的应用[D];哈尔滨工程大学;2010年
5 王兴梅;水下声纳图像的MRF目标检测与水平集的轮廓提取方法研究[D];哈尔滨工程大学;2010年
6 林颖;基于水平集方法的图像分割关键技术研究[D];哈尔滨工程大学;2010年
7 张进;地震叠前数据的弹性阻抗非线性反演方法研究[D];中国海洋大学;2009年
8 魏浩征;高压直流输电系统可听噪声预测系统的研究[D];合肥工业大学;2010年
9 付晓薇;基于量子力学的图像处理方法研究[D];华中科技大学;2010年
10 宋佩君;相干介质中的量子调控研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 孙涛;基于DR骨密度分析系统的研究[D];南京医科大学;2010年
2 张淑芳;基于LabVIEW的便携式汽车仪表检测仪的研制[D];安徽工程大学;2010年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 张倩;异形航空构件的专用超声换能器研制及检测应用[D];南昌航空大学;2010年
5 张聪炫;基于蚁群算法由直线光流场重建三维结构的研究[D];南昌航空大学;2010年
6 田冰;基于SOM网的多目标图像轮廓提取技术的研究[D];南昌航空大学;2010年
7 袁猛;基于变分理论的光流计算技术研究[D];南昌航空大学;2010年
8 赵永刚;图像检索中形状描述和匹配算法研究[D];南昌航空大学;2010年
9 岳莎莎;基于TMS320VC5509A的管道有源噪声控制系统研究[D];山东科技大学;2010年
10 马冉冉;集成学习算法研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 黄涛,夏佩伦;潜艇多信息源目标融合识别模型[J];兵工自动化;2004年03期
2 苏惠敏,张明廉;多传感器检测系统的分布式数据融合[J];北京航空航天大学学报;1999年03期
3 王大中;李晓妮;;基于麦克风阵列的语音信号实时时延估计[J];吉林大学学报(信息科学版);2009年02期
4 何伟俊;周非;;基于粒子滤波的TOA/TDOA融合定位算法研究[J];传感技术学报;2010年03期
5 居太亮;彭启琮;邵怀宗;林静然;;麦克风阵列二维方向估计聚焦算法研究[J];电子科技大学学报;2008年02期
6 林志斌,徐柏龄;基于传声器阵列的声源定位[J];电声技术;2004年05期
7 居太亮;彭启琮;邵怀宗;;基于麦克风阵列的近场声源定位子阵算法研究[J];电子测量与仪器学报;2006年05期
8 居太亮;邵怀宗;彭启琮;;近场声源三维定位MUSIC算法研究[J];电子测量与仪器学报;2007年01期
9 马加庆;韩崇昭;;一类基于信息融合的粒子滤波跟踪算法[J];光电工程;2007年04期
10 王勇;王典洪;;基于空间直方图的多目标粒子滤波跟踪[J];光电工程;2010年01期
中国博士学位论文全文数据库 前6条
1 孙兴华;基于内容的图像检索研究[D];南京理工大学;2002年
2 钟平;机载电子稳像技术研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2004年
3 崔锦实;基于三维模型的关节式物体姿态估计与跟踪方法研究[D];清华大学;2004年
4 居太亮;基于麦克风阵列的声源定位算法研究[D];电子科技大学;2006年
5 陈倩;多生物特征融合身份识别研究[D];浙江大学;2007年
6 朱娟娟;电子稳像理论及其应用研究[D];西安电子科技大学;2009年
中国硕士学位论文全文数据库 前4条
1 李昕;基于音频视频信息融合的人物跟踪及其应用[D];清华大学;2005年
2 罗功宸;普适计算多相性及个人智能环境研究[D];浙江大学;2006年
3 王军;基于线形麦克风阵列的声源定位算法改进与噪声的实验分析[D];西北大学;2008年
4 吴俣;基于麦克风阵列的声源定位技术的研究[D];电子科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁晓青,吴佑寿;模式识别统一熵理论[J];电子学报;1993年08期
2 吴云韬,廖桂生,陈建峰;一种色噪声环境下的DOA估计新算法[J];电子学报;2001年12期
3 王宏强,孙即祥,王晓华;基于小波变换和数据融合的多导联ECG信号QRS波群精确检测算法[J];国防科技大学学报;1999年04期
4 岑峰,戚飞虎;短程线主动轮廓跟踪算法的研究——在复杂背景和非刚性运动目标跟踪中的应用[J];计算机研究与发展;2003年02期
5 刘明宝,姚鸿勋,高文;彩色图像的实时人脸跟踪方法[J];计算机学报;1998年06期
6 于洋,查建中,唐晓君;基于学习的遗传算法及其在布局中的应用[J];计算机学报;2001年12期
7 聂伟,王祁,孙圣和;分布式多传感器检测系统时间序列数据融合算法研究[J];控制理论与应用;1999年02期
8 赵光,贾林飞,王冬霞,王琼;基于神经网络的麦克风阵列语音增强方法[J];辽宁工学院学报;2005年03期
9 于国臣,孙红,张海新,董超,孔丽静;一种新的偶奇非线性相干态中测量相位算符的压缩效应[J];量子光学学报;2003年04期
10 李培华,张田文;主动轮廓线模型(蛇模型)综述[J];软件学报;2000年06期
中国重要会议论文全文数据库 前1条
1 居太亮;彭启琮;邵怀宗;林静然;;麦克风阵列的拓扑结构研究[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 杨益新;声呐波束形成与波束域高分辨方位估计技术研究[D];西北工业大学;2002年
2 吴云韬;非平稳、色噪声环境下的参数估计方法研究[D];西安电子科技大学;2003年
中国硕士学位论文全文数据库 前6条
1 周浩洋;基于麦克风阵列的声源定位方法研究[D];大连理工大学;2002年
2 陆晓燕;基于麦克风阵列实现声源定位[D];大连理工大学;2003年
3 孙毅;基于贝叶斯原理和蒙特卡罗方法的高分辨方位估计新方法研究[D];西北工业大学;2003年
4 陈昊;空间谱估计算法的高速实现[D];电子科技大学;2003年
5 徐胜;基于智能麦克风阵列的说话人跟踪技术[D];电子科技大学;2004年
6 林静然;基于麦克风阵列的说话人跟踪及语音分离实现技术的研究[D];电子科技大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 金乃高;殷福亮;陈喆;;基于加权子空间拟合的声源定位与跟踪方法[J];电子与信息学报;2008年09期
2 王文龙;张艳萍;;基于四麦克风阵列的三维声源定位[J];南京信息工程大学学报(自然科学版);2010年05期
3 李彦翔;刘庆华;;高斯条件下基于粒子滤波的声源定位[J];电声技术;2009年10期
4 金乃高;殷福亮;;一种基于粒子滤波的双模态语音提取方法[J];大连理工大学学报;2008年04期
5 崔玮玮;曹志刚;魏建强;;基于双麦克风的2维平面定位算法[J];信号处理;2008年02期
6 翟丽雪;张丽艳;杨晓华;;基于联合粒子滤波的系统误差修正方法[J];大连交通大学学报;2007年04期
7 张洪涛;马培军;崔平远;;一种用于解决粒子滤波粒子退化现象的重要性重采样算法的研究[J];飞行器测控学报;2008年04期
8 李彦翔;刘庆华;;基于粒子滤波的麦克风阵列声源定位方法[J];微计算机信息;2010年07期
9 李彦翔;刘庆华;;基于粒子滤波的声源定位方法[J];计算机工程与应用;2010年30期
10 曹洁;魏建勇;刘宗礼;王进花;;基于简化的ISPF算法与视听信息融合的目标跟踪[J];仪器仪表学报;2011年01期
中国重要会议论文全文数据库 前10条
1 金乃高;侯刚;王学辉;李非墨;;基于主动感知的音视频联合说话人跟踪方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
2 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
3 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
4 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
5 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
6 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
7 蒋冬梅;赵荣椿;;基于尺度描述的说话人归一化语音特征[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
8 周绍良;;修绠山房梓《宣和遗事》跋[A];水浒争鸣(第一辑)[C];1982年
9 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 王洪海;刘刚;郭军;;基于二次弯折函数的频率弯折方法[A];第二十六届中国控制会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 ;满足手持移动设备应用 富迪阵列式麦克风获奖[N];电子资讯时报;2007年
2 ;敏芯:中国MEMS产业之星[N];中国电子报;2008年
3 记者 赵策;欧胜推出高性能超微MEMS麦克风[N];中国高新技术产业导报;2008年
4 本报记者 冯卫东;穿件衣服作麦克[N];科技日报;2010年
5 上海硅知识产权交易中心;MEMS麦克风发展迅速 全球专利量呈上升趋势[N];中国电子报;2010年
6 孙燕飚;生产手机麦克风 歌尔声学上半年盈利飙升122%[N];第一财经日报;2008年
7 栗弘儒;双艺电子:以品牌优势推动创新[N];中国高新技术产业导报;2004年
8 天津 王竹青;噪声因何而起[N];电脑报;2003年
9 闫冰;现在开始清理桌面空间[N];网络世界;2008年
10 ;NEMS麦克风生产工艺基本成熟成本仍然偏高[N];中国电子报;2009年
中国博士学位论文全文数据库 前10条
1 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年
2 田隽;基于粒子滤波的视频目标跟踪算法的研究[D];中国矿业大学;2010年
3 宫轶松;粒子滤波算法研究及其在GPS/DR组合导航中的应用[D];解放军信息工程大学;2010年
4 王乐;卫星USB测控体制下信号特征参数的分析与识别[D];哈尔滨工业大学;2010年
5 周寿军;左心室MRI序列的运动跟踪新方法[D];第一军医大学;2004年
6 李涛;非线性滤波方法在导航系统中的应用研究[D];国防科学技术大学;2003年
7 徐茂格;混沌通信中的粒子滤波技术研究[D];南京理工大学;2008年
8 姚剑敏;粒子滤波跟踪方法研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2005年
9 肖延国;智能传感器侦察网络中的目标跟踪算法研究[D];中国科学技术大学;2007年
10 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 束长干;基于麦克风阵列的室内语音定位与跟踪[D];北京邮电大学;2012年
2 金梦珺;概率假设密度粒子滤波的算法与硬件实现研究[D];浙江大学;2011年
3 苟若愚;基于粒子滤波的运动目标跟踪算法研究与实现[D];重庆大学;2010年
4 张楠;基于粒子滤波的目标跟踪算法研究[D];广东工业大学;2011年
5 苏新霞;分布式麦克风阵列跟踪算法研究[D];大连理工大学;2011年
6 冯卫娜;非线性系统参数和状态联合估计新算法研究[D];郑州大学;2010年
7 王洪;基于粒子滤波的飞行目标视频跟踪系统研究[D];武汉理工大学;2010年
8 钱翔;基于改进粒子滤波器目标跟踪算法研究[D];安徽大学;2010年
9 何裔玺;基于DSP的说话人定位跟踪系统的设计[D];兰州理工大学;2012年
10 杜炳硕;基于粒子滤波的汽车防撞雷达研究[D];南京理工大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026