基于内容的视频检索中关键帧提取算法研究
【摘要】:随着网络技术和多媒体技术的快速发展,海量的视频涌入Internet,给人们带来了视觉和听觉的享受。与此同时,如何对这些海量视频进行科学合理的管理便成了摆在人们面前的一个艰巨的任务。人们如何在海量的视频中获取自己感兴趣的视频数据也成为计算机技术研究者必须解决的问题。基于内容视频检索(Content-based Video Retrieval,简称CBVR)技术研究正是在这样的时代背景中成为计算机研究领域的热点问题之一。
基于内容的视频检索技术通过提取视频中的颜色、纹理、形状、运动等视觉特征来作为视频内容的索引,为用户提供了一种基于视觉特征相似性的内容检索手段,根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索,系统不需要人工参与,自动提取和描述视频数据的特征和内容。基于内容的视频检索技术融合了图像处理、模式识别、计算机视觉、图像理解、认知科学、人工智能、数据库管理系统、知识库系统、人机交互等科学技术领域。
基于内容视频检索技术的关键技术包括:镜头检测、关键帧提取、镜头聚类、视频数据的组织和索引、特征提取和匹配、界面显示和人际交互以及评价标准等。视频镜头检测和关键帧提取是基于内容视频检索系统的重要内容和关键步骤,关系到视频摘要的生成、视频数据库索引的建立和检索的效率。视频镜头检测是关键帧提取的前提和基础,视频镜头检测算法的效率直接影响关键帧提取的效果。视频镜头检测算法又可以按照镜头间切换的方式分为镜头切变检测和镜头渐变检测两类。对于镜头切变检测,通过对经典的镜头切变检测算法的研究,该文描述了一种基于HSV(色调Hue,饱和度Saturation和亮度值Value)颜色空间的视频镜头切变检测算法。该算法通过计算帧图像HSV颜色空间的均值和方差得到相邻两帧之间的差异度,根据差异度的大小来判断镜头发生切变的位置。对于镜头渐变检测,该文描述了一种基于帧间差值的视频镜头渐变检测算法。该算法通过对相邻两帧之间的差值曲线的分析,提出镜头渐变过程的曲线波动过程与运动因素引起的波动过程类似的问题,并且通过计算波动过程前后两帧的差值来判断引起波动的过程是镜头渐变还是运动因素,这种算法降低了镜头渐变检测的误检率。
通过视频镜头检测,完整的视频素材被分成了一个一个的镜头,每一个镜头都是由数量不等的若干帧形成的集合。同一个镜头中的若干帧具有很大的相似性,产生了相当大的信息冗余。要解决这个问题,必须在每一个镜头中提取具有代表性的帧作为镜头的关键帧。在关键帧提取算法的研究过程中,面对关键帧的评判标准模糊的问题,提出了评判关键帧的一些准则。在这些准则的约束下,该文给出了基于帧图像分块的关键帧提取算法。该算法主要思想是将关键帧分成若干子块,根据两帧对应子块的特征差值计算,将局部发生剧烈变化的子块作为关键帧提取。该算法对于捕捉同一镜头中主体运动或局部发生显著变化的帧图像效果明显。为了提高关键帧提取的效率,并且考虑到在同一镜头中帧图像之间的连续性,引入了折半查找法的思想,对关键帧进行提取,降低了关键帧提取算法的时间复杂度。
实验所采用的视频数据均来在于互联网,选作实验素材的视频数据都具有一定的特点。实验结果表明,视频镜头检测算法对于镜头的分割比较准确,具有较强的鲁棒性。基于分块的关键帧提取算法对于镜头中关键帧的提取效率比较高,提取的关键帧能有效的反映镜头的内容。