收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的视频检索中的音频处理

冯哲  
【摘要】:随着媒体数字化技术和网络技术的发展,人们的日常生活中所接触到的数字 视频越来越多。相应的,对数字视频进行分析和查找的需求也越来越迫切。因此, 基于内容的视频处理和检索已成为近年来多媒体处理、信息检索以及数据管理研 究领域的重要课题之一。 视频是由图像和音频组成的一个有机整体。经过近些年的研究,越来越多的 研究者发现从图像中提取和分析视频的语义是比较困难的。与此同时,音频流所 包含的语义信息要比图像流丰富,而且从音频流中提取语义信息也更加直观方 便。因此,音频信息的提取和分析对基于内容的视频处理和检索具有重要的意义。 结合视频本身的特点,本文在传统音频处理方法的基础上,讨论了视频处理 和检索系统中,提取、分析和利用音频信息的算法和框架。其中,主要讨论了三 种音频处理技术:音频类型识别、说话人信息分析和特殊音频事件检测。 视频中包含丰富的音频类型,将视频根据音频的类别进行分割是在视频中应 用音频信息的基础步骤。本文分析了不同音频类型的产生机制以及它们在不同音 频特征上的特点,提出了一种基于最大熵模型的音频类型识别算法。该算法可以 自动地挑选对分类比较有效的特征。同时,在复杂的音频环境下,该算法的性能 明显优于 k 近邻、GMM 和 SVM 等常用音频类型识别算法。 在现实的应用中,人(特别是说话人)经常是视频处理和检索的主要对象。 本文归纳整理了视频处理和检索中说话人信息分析的框架,提出了一个基于混合 高斯模型的近似 KL 距离的视频说话人信息分析算法。该算法能够有效地对视频 中出现的说话人进行分割和聚类。 视频中的特殊音频往往伴随着视频中某些特殊事件的发生而出现。对特殊音 频事件的检测对于检索视频中的特殊事件具有重要意义。本文分别提出了基于基 音频率的欢呼声检测算法和基于频谱能量分布的哨声检测算法。同时,还详细讨 论了一个基于事件的体育视频索引算法。该算法利用视频关联分析融合了音频特 征和其他视频特征,可以检测出体育视频中出现的事件,最终建立基于事件的体 育视频索引结构。 除了上述三个主要应用外,本文还对复旦大学参加 TRECVID 评测中用到的 其他音频处理方法进行了讨论。实验结果表明,本文提到的部分算法的性能接近 或达到了国际先进水平。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张翠玉;;基于内容的检索技术与多媒体数据库[J];科技信息;2010年26期
2 李仲;Premiere 5.0在电视非线性编辑音频处理中的应用[J];电声技术;1999年08期
3 ;SonyVegas精彩案例任你挑[J];电脑爱好者;2005年18期
4 潘亮;陈川;侯建军;;音频处理大师Audition 2.0使用方法与技巧概览(下)[J];电视字幕(特技与动画);2007年08期
5 李遵义;林水生;李广军;;SSI接口技术及其在音频处理中的应用[J];单片机与嵌入式系统应用;2008年07期
6 邹鹏;;数字音频中的Dither——利用噪声消除噪声[J];现代电视技术;2009年03期
7 popo;;Premiere跟我学——音频处理篇[J];数字世界;2003年01期
8 徐方;;构建网络数字音频工作站系统[J];中国电化教育;2005年12期
9 李夕红;祝忠明;;基于DSP5402的音频处理设计与实现[J];电声技术;2006年12期
10 孙兆辉;;浅谈基于DSP的音频处理及语音识别系统的设计[J];黑龙江科技信息;2008年31期
11 徐俊毅;;CEVA为高清晰音频应用推出业界最高效的单核DSP解决方案[J];电子与电脑;2009年02期
12 赵雪梅;;以太网数字音频终端系统的设计[J];电脑知识与技术;2009年14期
13 陈嘉;;深圳卫视高清播出系统中的Dolby AC-3音频处理[J];电视技术;2010年07期
14 王保雄,余松煜;视频检索中的镜头边界检测[J];红外与激光工程;2000年05期
15 ;音频软件面面观[J];信息技术教育;2005年04期
16 唐波,汤晓安,孙茂印;视频检索与数据库机制的适应性分析[J];计算机工程与应用;2005年26期
17 刘佳兵;;基于窗口最大值和自适应阈值的视频镜头分割算法[J];福建电脑;2007年08期
18 刘佳兵;;视频检索中的关键帧提取技术[J];福建电脑;2007年12期
19 薛立勤;张秀娟;;基于运动分析的视频检索方法[J];计算机工程与应用;2008年25期
20 李海玉;;论利用结构分析法进行视频检索[J];潍坊教育学院学报;2010年02期
中国重要会议论文全文数据库 前10条
1 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
2 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
3 欧智坚;罗骏;谢达东;赵贤宇;林晖;王作英;;多功能语音/音频信息检索系统的研究与实现[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
4 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
5 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
6 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
7 蒋冬梅;赵荣椿;;基于尺度描述的说话人归一化语音特征[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
8 周绍良;;修绠山房梓《宣和遗事》跋[A];水浒争鸣(第一辑)[C];1982年
9 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 王洪海;刘刚;郭军;;基于二次弯折函数的频率弯折方法[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
2 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
3 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
4 焦玉华;音频感知哈希算法研究[D];哈尔滨工业大学;2010年
5 曹政;电视节目自动分割与相似视频检索[D];中国科学技术大学;2010年
6 肖永良;基于内容的视频检索关键技术研究[D];中南大学;2010年
7 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
8 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
9 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
10 李向伟;压缩域视频检索与挖掘关键技术研究[D];兰州理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 师鸣若;基于内容的视频检索系统研究[D];西安理工大学;2003年
2 罗凤玲;视频检索中的特征提取方法研究[D];中国人民解放军国防科学技术大学;2002年
3 王韬;基于内容的新闻视频检索系统的相关技术研究[D];南京理工大学;2004年
4 苗盼盼;基于内容的视频检索若干技术研究[D];南京理工大学;2010年
5 纪丽婷;基于内容的视频检索方法的研究[D];中北大学;2010年
6 潘晓英;基于计算智能的视频检索[D];西安电子科技大学;2005年
7 何静;基于内容的足球视频检索与自动编辑系统研究[D];西安理工大学;2005年
8 王秉举;基于MPEG-7、MPEG-4标准的视频检索研究和数字视频监控系统软件研发[D];华东师范大学;2004年
9 董晴;基于音视频融合的网球视频检索[D];南京理工大学;2010年
10 张洪德;基于内容的视频检索技术研究[D];国防科学技术大学;2002年
中国重要报纸全文数据库 前10条
1 特约记者 高晓荣;音符爆炸快感[N];电脑报;2010年
2 李映;集成度提高对手机音频芯片影响不大[N];中国电子报;2008年
3 刘惠思;2010年俄音频和视频设备市场扩增10%[N];远东经贸导报;2010年
4 黄云飞;为何用CDPLAYER播放CD会无声[N];电脑报;2004年
5 李影;纯音频MP3市场继续下滑[N];中国计算机报;2007年
6 晓瑜;听诊手机的“声带”[N];通信产业报;2004年
7 邹大斌;音频专利要走自主之路[N];计算机世界;2007年
8 山东 王涛;抓取卡拉OK中的音频[N];电脑报;2002年
9 本报记者 胡洪森;成国家标准 DRA开始多领域应用[N];中国电子报;2009年
10 特约撰稿 潘伟;康佳成立音频实验室掀起手机“音响革命”[N];通信信息报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978