基于内容多媒体应用的语义视频对象提取及评价
【摘要】:传统的视频压缩编码标准MPEG1/2和H.26x都采用基于帧的技术,不要求对场景进行分割。它们能获得较高的压缩比,并在许多领域得到了广泛的应用。随着多媒体信息的日益丰富,人们不再满足于对视频信息的简单浏览,而要求提供基于对象的操纵、交互等功能。为此,MPEG-4引入视频对象的概念,以支持基于对象的交互性和可分层性。MPEG-7则对各种媒体对象进行统一和规范化的描述。按照MPEG-4的校验模型,视频序列必须先分割成具有语义意义的视频对象,然后对其运动、形状和纹理分别进行编码。视频对象的应用价值主要有:对不同的视频对象按其对视觉重要性分配不同的码率,可提高压缩编码效率;支持对象可分级,在较低的网络带宽时获得更好的视觉效果;用视频对象来组织视频内容,能实现基于视频内容的存储、交互和查询等功能。
然而,MPEG-4尽管引入了视频对象的概念,它并没有指定从视频序列获取视频对象的具体方法。一方面,视频对象的语义一致性难以通过视频的低级物理特性来建模,使得针对各种视频序列的通用视频对象分割算法是一个尚未解决的经典难题;另一方面,针对特定的应用,往往可以利用先验知识设计相应的算法。
本论文重点研究MPEG-4框架下的从视频序列中分割出视频对象的方法和技术,以及其在基于内容多媒体中的应用。研究目标是:对特定类型的序列如头肩序列,算法满足实时性要求;对背景静止的序列,全自动分割算法取得较好的分割效果;对复杂背景和前景运动视频序列,采用半自动分割算法,要求得到较好的分割质量,而且人机交互简单。具体地,本文研究的主要内容和贡献包括:
提出了两种全自动的视频对象分割算法。第一种采用背景记录和变化检测,主要由预处理、背景记录、背景缓冲、变化检测和后处理等几部分组成。它不需要诸如运动估计、特征空间分析等计算量大的操作,并能有效去除阴影和光照变化造成的影响。它能够生成背景信息,支持MPEG-4的精灵编码。第二种是一种基于时空分割融合的视频对象提取改进算法。时间分割基于变化检测,其关键的阈值选取是通过直方图分析得到的。空间分割是本算法的核心,采用基于小波变换的分水岭变换算法。
提出了一种半自动的视频对象分割算法。为方便用户定义初始对象轮廓,提出了一种修
杨高波
基于内容多媒体应用的语义视频对象提取及评价
改的智能剪.它通过引入边界框、简化代价函数和改进搜索策略等,可提高优化路径搜索速
度约6一8倍,而几乎不损失分割精度,完全满足半自动分割算法对初始对象轮廓勾勒的要求。
为克服对象跟踪过程中的误差积累,按视频对象的刚性、非刚性以及全局、局部直方图比较
进行视频分解得到后续帧的视频对象。由于视频分解以及人工参与,它可以在很大程度上解
决遮挡问题,取得了比COSTZll AM更好的分割效果。
针对目前的视频分割算法大多数难以满足实时性要求,采用了一种新的计算体系结构,
即将细胞神经网络引入视频对象分割.细胞神经网络是一种非线性模拟电路,由大量胞元组
成,且只允许最邻近的胞元间直接通信。由于它具有的高度并行的实时处理能力和机理类似
于人类视觉系统,特别适合于图像处理等领域。然而,与传统的CISC处理器相比,CNN只
能利用一些简单的基于像素的函数,有相对狭窄的指令集一尽管有很高的速度。因此,基于
O四体系结构的视频对象分割算法的关键是充分考虑到经胞神经网络的特点,将复杂的视频
分割算法分解为一些CNN胞元能够完成的低级操作。论文提出基于彩色边缘变化检测的视频
分割算法。所有的模板都是3x3的线性模板,并能在CNN的模板库中得到,因此,其易于
CNN实现。
本文提出了一种客观的存在参考分割时分割算法评价方法。视频分割算法往往只适合特
定的应用,其性能依赖于具体的序列。目前,视频分割算法的性能评价以对己知序列的分割
结果的主观评价为主,尚没有一种广泛接受的客观评价方法。视频分割算法的评价是重要的,
它有助于针对具体的应用选取合适的算法并设置恰当的参数,以及有利于通过融合各种算法
的优点发展新的算法;而且,自动分割算法采用性能评价作反馈可改进分割性能。空间精确
度通过相对前景面积、位置、边界像素距离以及像素分类来进行,并将其按对人类视觉系统
的重要性线性加权。而时间一致性反映分割算法分割各帧时的稳定性,它通过空间准确度的
变化‘来刻画。实验证明,其评价结果与主观评价结果一致,而且计算量小。
综上所述,本论文系统地研究了MPEG4框架下的语义视频对象分割问题,根据具体的
问题提出了满足实际需要的全自动、半自动分割算法,并探讨了在存在参考分割的情况下客
观地评价视频分割算法性能的方法。