结合视觉及语义特征的图像检索系统研究
【摘要】:计算机技术的快速发展、因特网的普及产生了大量数字图像信息,如何能够高效地进行数字图像的管理和访问是一个困难但值得研究的问题。基于内容的图像检索技术是解决这一问题的有效途径,该技术研究的主要内容是如何从图像中提取能够充分表达图像内容的视觉特征信息或语义信息,并利用之进行图像的快速检索。
本文主要围绕着图像的视觉特征的表示和提取、图像语义信息的学习和标注、图像检索的实现方式进行研究,并在研究的基础上,结合基于视觉特征检索及基于语义检索方式的优点,建立起高效实用的图像检索系统。
在图像特征表示方面,本文对常见的图像特征进行了简要介绍,并提出了基于区域主色连通分量的图像特征表示方法。该方法将图像划分为规则的区域并提取出每个区域的主色,根据相邻区域的主色是否相同将整幅图像划分为若干连通分量,将连通分量的主色及区域大小作为该区域的特征。这种表示方法不仅包含了图像的颜色信息,而且包含了一定的空间分布及形状信息,这样就从多方面更准确的描述了图像的内容。在相似性度量方面,本文在图像特征表示的基础上,将所有区域的特征序列化成为串,并通过串之间的比较来衡量图像之间的距离。
在图像语义学习方面,本文使用了半监督学习的方法来实现图像语义的传播。该方法针对常规监督学习训练样本少的缺点,不仅使用了训练样本的信息,同时利用了大量的未标注图像的相关信息进行语义的传播,使未标注图像获得初始的语义。
检索过程中的相关反馈将用户因素加入到检索系统中,可以进一步捕捉用户意图,并对检索系统进行完善。在基于视觉特征检索的过程中,本文使用了流形学习的方法来利用用户的反馈。通过求检索图像和反馈图像的k近邻,并将检索图像、反馈图像及其近邻看成图中的点,通过局部保形映射获得图像点之间的边,使用两点之间的最短路径来衡量图像之间的距离,这种表示方法比常规的欧式距离更有效。
在语义改善方面,本文综合使用了图像的隐语义和显语义特征。隐语义一般出现在常规的基于视觉特征的图像检索中,只知道图像语义相同,但不知道具体语义。显语义特征一般出现在基于Web的图像检索中,语义可以通过用户输入的查询关键字或图像周围的文字获得。本文综合了两者的优点,利用显语义可以直接获得图像的语义,利用隐语义之间的相关性及具有相同隐语义的图像中已有的语义特征可以将语义进行学习和传播,从而对图像的标注信息加以改善。
本文在最后较为详细的介绍了一个结合视觉和语义特征的图像检索系统的实现,包括系统的目标,系统的结构以及实际的性能评价。实验证明,结合视觉和语义特征的图像检索系统能够从多方面描述用户的查询意图,具有更好的查询性能,满足不同用户的需要。