基于内容图像检索中图像语义分类技术研究
【摘要】:图像语义分类是基于内容图像检索(Content-Based Image Retrieval,CBIR)研究领域中一个重要而又有挑战性的问题。图像和视频正在成为多媒体的主要表现形式,将图像数据库划分为有意义的语义类别成为迫切的需要。传统CBIR技术试图通过分析图像视觉特征的相似性来检索图像,这不能满足普通人按语义检索图像的需求。基于低级图像特征将图像集合按语义进行合理的分类,会极大提高CBIR系统的性能。本文主要研究基于图像低级视觉特征的图像语义分类。
本文首先介绍传统CBIR的研究内容、系统组成和实际系统。详细阐述作为图像语义分类基础的颜色、纹理、形状、空间关系等低级图像特征,并讨论图像语义分类的主流技术。针对传统CBIR的不足,介绍了图像语义检索的主要技术。
图像语义模型是对图像整个语义表示和处理过程的抽象,也提供可行的研究方向。贝叶斯概率框架是一种将先验概率转化为后验概率的理论框架,通过形式化的图像分类概率框架可以将低级图像特征映射到已有的高层语义。
图像全局特征的表现形式多种多样,是图像语义分类的重要基础。本文基于单个图像全局特征提出一种新的图像语义分类方法,借鉴相关反馈机制的基本思想获得候选图像全局特征集合中具有最优“判别能力”的单个特征,还应用基于传统摄影学理论的空间分块策略。本文实现室内/室外和城市/风景两个图像分类器,并结合在大型图像数据库上的试验结果深入分析该图像语义分类算法。
多种图像全局特征也可以同时应用于图像语义分类。在分析使用多种图像全局特征优点的基础上,本文提出基于多种图像全局特征并和图像特征空间分布信息相融合的图像语义分类方法。结合多种图像特征和空间分布信息产生新的图像特征表示,并应用一种增量学习方法改进算法的性能。试验结果表明该算法特别适用于特征空间分布相对固定的室内/室外等具体图像语义分类问题。
图像局部特征往往对应着特定的语义类别。本文提出利用动态外观模型(Active Appearance Model)来描述同一语义类别图像中外观相似物体的方法。通过搜索图像中外观相似的“物体”进而分类和检索语义图像。针对人脸检测和红眼检测问题在家庭数字影集上进行试验,结果表明算法具有相当高的检索正确率。
最后开发原型系统TopAlbum,并介绍一些具体实现细节,论证了本文研究