基于场景和结构的特定对象检测与识别研究
【摘要】:基于场景和结构的特定对象检测和识别研究旨在大量的图片数据库中快速的寻找并定位某一种特定目标并对其进行精确匹配的技术。本文研究了在大量图像数据库中推测对象存在性模型以及对象位置模型[1],与传统的基于对象本身的对象检测与识别不同,本文将研究的重点在场景上下文[2]与对象之间的关联,并在此基础上进一步研究了特定对象的匹配算法。在获取了对象存在性以及位置之后,再对对象出现概率较高的图像以及图像中对象可能出现的位置进行特定对象的检测与识别,从而大大提高了检测的速度。
国内外的研究将大部分的精力都放在了基于对象本身特征的识别上,然而对于场景特征与对象存在性的关系的研究却比较少。然而,实验[35]却表明,观察者从场景中获取信息仅仅只需要几百毫秒的时间,在这个时间里,没有细节信息通过人类的视觉系统传输到了大脑中。先前的实验[36]也已经证实了人类的视觉系统用在检测和识别对象的时候很大程度的依赖于环境的信息。人类在对具体的对象做出判别前已经对场景做出了初步判断。因此,场景信息在对象的识别的过程中扮演了至关重要的角色。通过对场景特征的描述,根据特征与对象存在性之间的关系建立模型。场景的描述方法很多,本文的工作基于前人的研究上加以发展,通过对图像全局[47][48]的描述可以建立推断一个对象存在与否的混合高斯模型[5]。然而,全局描述维度很高,但根据人类视觉系统的层次理论[32][33][34],低维度的信息向后传递到大脑。本文基于这个现象,结合降维技术对场景描述进行降维,再基于这个描述结合对象的存在性进行建模,最终得到基于场景上下文信息的对象存在性模型。在此基础上,本文进一步探讨了对象存在空间位置和尺度与场景特征之间的关系模型。
基于对象存在性模型以及位置模型可以从海量的图像数据库中高效快速的得到存在对象的图像以及对象可能存在的空间位置,基于这个结果,本文进一步研究了对象精确匹配的方法。本章中提出了一种从图论[6]出发,同时考虑目标的特征相似性和结构相似性,将目标识别问题总结为最优化问题来解的对象匹配算法。该方法同时考虑了对象的特征相似性以及结构相似性,并且对于旋转,褶皱,翻转等现象具有一定的鲁棒性。本文拓展了局部表达的概念,结合近邻进行表达,将空间上的近邻信息隐式的保存在特征当中,这种表达虽然不具有位置仿射不变的特征,但它对翻转,褶皱,旋转等变换具有较好的鲁棒性。