弱监督下基于对抗互补注意力机制和分层双线性池化的细粒度图像识别
【摘要】:随着深度学习技术的广泛发展,细粒度图像识别技术成为当前计算机视觉领域研究的热点。细粒度图像识别的方法可以分为需要人工标注包围框或标注点的强监督方法、不需要任何标注信息的无监督方法和只需要图像级别标注的弱监督方法。弱监督的好处在于它不仅可以大大节省人力、财力,而且还可以达到很好的识别精度。因此,本文研究弱监督下的细粒度图像识别。研究弱监督下的细粒度图像识别需要提取出图像细微的判别性特征,一些常用的方法是直接利用卷积神经网络或者基于视觉注意力机制的方法提取图像的判别性特征,这种方法往往只能提取到图像一些主要显著的判别性特征,而不能学习到其他次要显著的判别性特征。当两个图像被提取出的主要显著的判别性特征非常相似时,仅仅依靠主要显著的判别性特征是不够的,此时次要显著的判别性特征显得极为重要。我们尝试使用一种基于对抗互补注意力机制的方式,它不仅可以提取出图像主要显著的判别性特征而且还可以提取出图像次要显著的判别性特征,此方法主要包含两个分类器,其中分类器A用来学习物体一些特别显著的判别性特征,分类器B将分类器A学习到的这些判别性特征擦除掉,然后再去学习下一个判别性特征,即相对于分类器A学到的次要显著的判别性特征。两个分类器以一种对抗互补的方式迭代学习,直到网络训练到收敛为止。实验结果表明,这种基于对抗互补注意力的细粒度图像识别方法可以提升细粒度图像识别的准确率。研究弱监督下的细粒度图像识别还需要融合不同网络层之间的判别性特征。当前研究弱监督下的细粒度图像识别方法往往在提取出卷积神经网络高层的语义信息之后便直接进行类别的预测,但其却忽略了卷积神经网络不同网络层提取出的特征之间具有一定的语义相关性。因此,本文尝试使用一种基于对抗互补注意力机制和分层双线性池化的方法,分层双线性池化可以将不同层之间的特征进行融合,加强图像特征之间的相关性,促使网络学习到的显著性区域更加具有代表性,从而提升分类网络的性能。在本文中,我们主要是在使用对抗互补注意力机制提取到图像高层的判别性特征之后,又提取了相同尺度下不同层之间的判别性特征,然后再将这些不同层的判别性特征两两之间进行双线性池化,即将不同层之间的判别性特征进行融合,增强图像的表示能力,用以提升弱监督下细粒度图像识别的能力。实验结果表明,这种基于对抗互补注意力机制和分层双线性池化的细粒度图像识别方法具有一定的竞争性。