收藏本站
《复旦大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的视频检索中的音频处理

冯哲  
【摘要】:随着媒体数字化技术和网络技术的发展,人们的日常生活中所接触到的数字 视频越来越多。相应的,对数字视频进行分析和查找的需求也越来越迫切。因此, 基于内容的视频处理和检索已成为近年来多媒体处理、信息检索以及数据管理研 究领域的重要课题之一。 视频是由图像和音频组成的一个有机整体。经过近些年的研究,越来越多的 研究者发现从图像中提取和分析视频的语义是比较困难的。与此同时,音频流所 包含的语义信息要比图像流丰富,而且从音频流中提取语义信息也更加直观方 便。因此,音频信息的提取和分析对基于内容的视频处理和检索具有重要的意义。 结合视频本身的特点,本文在传统音频处理方法的基础上,讨论了视频处理 和检索系统中,提取、分析和利用音频信息的算法和框架。其中,主要讨论了三 种音频处理技术:音频类型识别、说话人信息分析和特殊音频事件检测。 视频中包含丰富的音频类型,将视频根据音频的类别进行分割是在视频中应 用音频信息的基础步骤。本文分析了不同音频类型的产生机制以及它们在不同音 频特征上的特点,提出了一种基于最大熵模型的音频类型识别算法。该算法可以 自动地挑选对分类比较有效的特征。同时,在复杂的音频环境下,该算法的性能 明显优于 k 近邻、GMM 和 SVM 等常用音频类型识别算法。 在现实的应用中,人(特别是说话人)经常是视频处理和检索的主要对象。 本文归纳整理了视频处理和检索中说话人信息分析的框架,提出了一个基于混合 高斯模型的近似 KL 距离的视频说话人信息分析算法。该算法能够有效地对视频 中出现的说话人进行分割和聚类。 视频中的特殊音频往往伴随着视频中某些特殊事件的发生而出现。对特殊音 频事件的检测对于检索视频中的特殊事件具有重要意义。本文分别提出了基于基 音频率的欢呼声检测算法和基于频谱能量分布的哨声检测算法。同时,还详细讨 论了一个基于事件的体育视频索引算法。该算法利用视频关联分析融合了音频特 征和其他视频特征,可以检测出体育视频中出现的事件,最终建立基于事件的体 育视频索引结构。 除了上述三个主要应用外,本文还对复旦大学参加 TRECVID 评测中用到的 其他音频处理方法进行了讨论。实验结果表明,本文提到的部分算法的性能接近 或达到了国际先进水平。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 汪玉山;史萍;;基于音视频特征的电视广告单元分割技术[J];电视技术;2012年16期
中国博士学位论文全文数据库 前3条
1 赵亚琴;基于内容的视频片段检索技术研究[D];南京理工大学;2007年
2 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
3 闫乐林;基于视听信息的视频语义分析与检索技术研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前9条
1 姜海鹏;基于矢量量化的音频信号辨析系统的研究[D];哈尔滨理工大学;2010年
2 李梅;基于S_T-Simfusion算法和本体的视频语义提取研究[D];江苏大学;2010年
3 屈有政;基于内容的暴力视频检索[D];北京交通大学;2011年
4 刘惠彬;视频分割和重组技术研究[D];中南大学;2005年
5 毕竞;应用于视频内容分析的话者辨识系统[D];北京邮电大学;2008年
6 曲泽超;足球视频检索技术研究与实现[D];南京理工大学;2008年
7 时金;基于音频的视频内容检索[D];上海交通大学;2009年
8 唐正;多媒体信息检索实验平台的构建[D];华南理工大学;2010年
9 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 饶云江;吴敏;冉曾令;喻瑜;;基于准分布式FBG传感器的光纤入侵报警系统[J];安防科技;2007年06期
2 施俊强,池明敏;基于TMS320C54x DSKplus的实时TCM语音编解码算法的实现[J];半导体技术;2001年08期
3 邓勇,施文康;基于TMS320C50的语音频谱分析仪[J];兵工自动化;2000年03期
4 徐俊晓,谢锋,江建平,莫运明,郑中华;我国12种无尾类的鸣叫特征参数[J];动物学杂志;2005年03期
5 冯成林,吴淑珍;一种噪声环境下的语音识别方法(线性预测误差法)的研究[J];北京大学学报(自然科学版);2000年05期
6 黄新宇,吴淑珍;基于单边自相关线性预测噪声中汉语语音识别[J];北京大学学报(自然科学版);2000年05期
7 刘敬伟,程乾生;基于动态时间规划的基因芯片数据识别[J];北京大学学报(自然科学版);2002年05期
8 段新,黄新宇,吴淑珍;与文本无关的说话人辨认系统中一种新的使用基音周期方法研究[J];北京大学学报(自然科学版);2003年05期
9 王炜,刘峰,吴淑珍;RASTA滤波在语音通信质量客观评价中应用的研究[J];北京大学学报(自然科学版);2003年05期
10 刘惠华,潘建军,周冰,范京;稀疏谱线合成对元音频域信息分布的探讨[J];北京机械工业学院学报;2005年01期
中国重要会议论文全文数据库 前10条
1 杨靓;苗振江;;WEB音频自动分类的研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
2 郭巧;张立伟;陆际联;;汉语语音信号的端点检测与切分[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 张连海;王杰锋;王炳锡;;基于语音多带激励模型的基音周期估计算法研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
4 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
5 牟峰;俞铁城;杨道淳;;新型半波语音编解码的实现[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
6 邹绘华;李双田;;基于频谱斜率约束的变速率语音编码算法研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
7 李灿伟;杨震;;基于DCT的有色噪声消除算法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
8 周珺;范京;刘惠华;;汉语语音音量和语速变化的自适应的调整[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
9 孙海;范京;刘惠华;;汉语连续语音中的单字起止点综合判别的新方法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
10 朱学勇;刘亚康;杨乐;;一种基于MBE模型的2.4Kbps语音编码器算法[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 洪弘;基于Hilbert-Huang变换的汉语动态特征分析[D];南京大学;2010年
3 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
4 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
5 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 胡毅;关节式坐标测量机热变形误差建模及修正研究[D];合肥工业大学;2011年
8 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
9 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
10 高二中;对话电话语音的话者确认研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 王春力;基于P2P的网络音频捕获与多路混音算法研究[D];山东科技大学;2010年
2 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
3 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
4 徐雯;VDR音频数据数字水印算法研究[D];哈尔滨工程大学;2010年
5 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
6 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年
7 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
8 庞敏辉;语音库自动构建技术的研究[D];中国海洋大学;2010年
9 郭秋雨;小词汇量非特定人的孤立词语音识别系统研究[D];中国海洋大学;2010年
10 罗文兵;自适应教学科研信息推送服务模型研究[D];江西师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 吴淑珍,吴阿华;说话人识别的参量研究和语音库建设[J];北京大学学报(自然科学版);1995年03期
2 张龙飞;曹元大;周艺华;李剑;;基于支持向量机元分类器的体育视频分类[J];北京理工大学学报;2006年01期
3 冯扬;罗森林;王丽萍;潘丽敏;;一种新的自适应镜头边界检测算法[J];北京理工大学学报;2010年01期
4 王勇烈;积分对Jensen不等式的隔离[J];北京联合大学学报;1994年03期
5 何久安,王欣;视频编辑室──Adobe Premiere[J];电脑技术;1996年03期
6 张石清;赵知劲;雷必成;杨广映;;结合音质特征和韵律特征的语音情感识别[J];电路与系统学报;2009年04期
7 闫乐林;温向明;郑伟;张良;;基于未确知测度的视频情感内容识别[J];东南大学学报(自然科学版);2011年03期
8 刘雪燕;张娜;袁宝玲;;说话人识别综述[J];电脑知识与技术;2009年01期
9 徐海华,何玉明;LBG算法中空包腔的优化处理[J];电声技术;2004年03期
10 王书诏;邱天爽;;与文本无关的说话人识别系统的设计[J];电声技术;2006年12期
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
3 刘新春;面向MPEG-4的视频分割算法研究[D];中国科学院电子学研究所;2000年
4 刘桂清;视频摘要技术的研究与实现[D];国防科学技术大学;2004年
5 史迎春;基于内容的视频检索语义提取若干问题研究[D];南京理工大学;2005年
6 陈剑赟;体育视频语义内容分析技术研究[D];国防科学技术大学;2005年
7 林奕琳;基于语音信号的情感识别研究[D];华南理工大学;2006年
8 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
9 智敏;基于内容的视频检索和浏览的关键技术[D];北京邮电大学;2006年
10 郑贵滨;基于内容的音频信息检索技术研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨厚德;视频广告的自动识别与检测[D];北京交通大学;2011年
2 吴长君;基于旋律的音乐检索系统设计与实现[D];北京邮电大学;2011年
3 陆冬;语音到语音的检索系统研究[D];哈尔滨工程大学;2011年
4 张洪德;基于内容的视频检索技术研究[D];国防科学技术大学;2002年
5 周祥东;视频特征提取和视频镜头分析[D];中国人民解放军国防科学技术大学;2002年
6 王海霞;基于MPEG-7的图像检索技术[D];广西大学;2004年
7 宋文静;基于隐马尔可夫模型的音频检索[D];南京理工大学;2004年
8 潘晓英;基于计算智能的视频检索[D];西安电子科技大学;2005年
9 何静;基于内容的足球视频检索与自动编辑系统研究[D];西安理工大学;2005年
10 李默;新闻视频场景分割技术研究[D];中国人民解放军信息工程大学;2005年
【二级引证文献】
中国期刊全文数据库 前4条
1 傅泽田;苏叶;张领先;李鑫星;;基于自适应双阈值的蔬菜病害知识视频分割方法[J];农业工程学报;2013年09期
2 贺巧艳;曹元大;;基于语义分析的新闻视频检索系统的设计[J];数字技术与应用;2014年04期
3 文进爱;;基于内容的旅游视频检索方法研究[J];现代计算机(专业版);2009年11期
4 王民;徐和祥;张世明;;知识模块化的资源制作模式研究[J];中国电化教育;2013年10期
中国博士学位论文全文数据库 前1条
1 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 昝蕊;数字视频中字幕的检测与提取[D];长春工业大学;2010年
2 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
3 聂明华;基于内容的县党政会议视频检索系统的实现[D];西安电子科技大学;2010年
4 王辉;视频标注技术在体育比赛分析中的应用研究[D];北方工业大学;2011年
5 辛宪阳;基于多模态融合的足球视频语义分析[D];吉林大学;2011年
6 荣艺;流媒体系统的设计与监测[D];北京邮电大学;2011年
7 徐益君;基于视频内容分析的检索方法研究及实现[D];华南理工大学;2011年
8 孟雨;基于视频镜头的苹果病斑检索研究[D];西北农林科技大学;2011年
9 殷杰;基于镜头鉴别力分析的视频检索方法研究[D];上海交通大学;2012年
10 李强;基于内容的视频检索研究[D];南京理工大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 王保雄,余松煜;视频检索中的镜头边界检测[J];红外与激光工程;2000年05期
2 唐波,汤晓安,孙茂印;视频检索与数据库机制的适应性分析[J];计算机工程与应用;2005年26期
3 刘佳兵;;基于窗口最大值和自适应阈值的视频镜头分割算法[J];福建电脑;2007年08期
4 刘佳兵;;视频检索中的关键帧提取技术[J];福建电脑;2007年12期
5 薛立勤;张秀娟;;基于运动分析的视频检索方法[J];计算机工程与应用;2008年25期
6 李海玉;;论利用结构分析法进行视频检索[J];潍坊教育学院学报;2010年02期
7 初广丽;杨晓东;;关于视频分割技术的几个问题的探讨[J];白城师范学院学报;2010年03期
8 胡涛,何静,张志刚;一种检测足球视频中射门镜头的方法[J];电视技术;2005年04期
9 张景辉;田树华;刘树明;;多媒体教学中基于内容的视频检索[J];华北煤炭医学院学报;2006年05期
10 李治强;杨强;;基于时空分布特征的新闻字幕检测改进算法[J];广播与电视技术;2007年02期
中国重要会议论文全文数据库 前10条
1 闫剑锋;李战怀;;一种基于运动轨迹的视频检索方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 徐忠强;;电视新闻节目基于内容的视频检索技术及其实现[A];2009中国电影电视技术学会影视技术文集[C];2010年
3 谷军霞;姚鸿;梁小雨;;早间会商“重点天气提示”的内容提取与检索[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
4 唐跃林;周长国;肖沙里;姚富光;丘柳东;周宴;;基于MPEG视频的镜头检测系统研究[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
5 林健;夏靖波;;基于互传信息量的关键帧提取[A];2005中国控制与决策学术年会论文集(上)[C];2005年
6 谷军霞;姚鸿;;基于内容的视频检索在电视会商多媒体数据检索中的应用[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
7 申铉京;张婷;千庆姬;;基于内容的视频检索中运动分析的研究[A];第三届全国信息获取与处理学术会议论文集[C];2005年
8 陈丹雯;吴玲达;;一种基于互增强原则的视频检索重排序方法[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
9 韩智广;吴玲达;徐建军;栾希道;;一种新的用于视频检索的语义索引[A];第四届和谐人机环境联合学术会议论文集[C];2008年
10 刘丽丽;郭锋;吕凝;;新闻视频中标题字幕的检测与识别[A];中国通信学会第五届学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 百度;视频用户相关偏好分析[N];中华新闻报;2007年
2 新浪;新浪视频流量剧门户网站第一[N];中华新闻报;2007年
3 本报记者 房琳琳;张宏江:从开拓者到工兵头[N];科技日报;2007年
4 ;网民的视频搜索行为分析[N];中华新闻报;2007年
5 张莹;百度“日本计划”正式实施[N];中国新闻出版报;2008年
6 熊伟 整理;回到“多媒体”交流的“村落”[N];计算机世界;2002年
7 周婷;百度日本成第四大独立搜索引擎[N];中国证券报;2008年
8 记者 谢作昱;数字媒体技术产业化存在三大瓶颈[N];中国知识产权报;2006年
9 本报记者 张韬;正式进军日本 百度先聚人气再谈盈利[N];上海证券报;2008年
10 记者 罗添;百度日本分公司正式运营[N];北京商报;2008年
中国博士学位论文全文数据库 前10条
1 曹政;电视节目自动分割与相似视频检索[D];中国科学技术大学;2010年
2 刘浏;基于内容的重排列视频检索技术研究[D];上海交通大学;2013年
3 肖永良;基于内容的视频检索关键技术研究[D];中南大学;2010年
4 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
5 李向伟;压缩域视频检索与挖掘关键技术研究[D];兰州理工大学;2010年
6 雷少帅;基于内容的视频检索关键技术研究[D];太原理工大学;2012年
7 何云峰;视频内容组织与索引技术研究[D];华中科技大学;2011年
8 李玉峰;基于内容视频检索的镜头检测及场景检测研究[D];天津大学;2009年
9 樊昀;基于内容图像检索的一些关键技术研究[D];国防科学技术大学;2001年
10 吕凝;基于内容的视频数据库多模式检索方法研究[D];吉林大学;2005年
中国硕士学位论文全文数据库 前10条
1 师鸣若;基于内容的视频检索系统研究[D];西安理工大学;2003年
2 罗凤玲;视频检索中的特征提取方法研究[D];中国人民解放军国防科学技术大学;2002年
3 王韬;基于内容的新闻视频检索系统的相关技术研究[D];南京理工大学;2004年
4 苗盼盼;基于内容的视频检索若干技术研究[D];南京理工大学;2010年
5 纪丽婷;基于内容的视频检索方法的研究[D];中北大学;2010年
6 潘晓英;基于计算智能的视频检索[D];西安电子科技大学;2005年
7 何静;基于内容的足球视频检索与自动编辑系统研究[D];西安理工大学;2005年
8 王秉举;基于MPEG-7、MPEG-4标准的视频检索研究和数字视频监控系统软件研发[D];华东师范大学;2004年
9 董晴;基于音视频融合的网球视频检索[D];南京理工大学;2010年
10 张洪德;基于内容的视频检索技术研究[D];国防科学技术大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026