基于深度学习的行人再识别算法研究
【摘要】:近年来,监控摄像机数量的爆发式增长为智能视频监控提供了海量的数据,但同时也大大增加了视频信息处理的难度。行人再识别技术能够在大规模监控网络中对指定行人图像进行身份识别和检索,并建立该行人在不同摄像机下的身份关联,因此对智能视频监控网络中的目标跟踪、运动分析、行为理解等后续工作具有重大的意义。然而,行人图像通常包含姿态、遮挡、背景、光照、分辨率等诸多变化,这使得行人图像的表观特征会发生变化,给识别性能造成了重大的影响。本文分别从姿态变化、模态差异和长尾分布三个方面对行人再识别问题展开深入研究,提出了一系列解决方案,提高了行人再识别模型的有效性和鲁棒性。本文的主要研究内容和贡献在于:1.提出了基于层次注意力和分组注意力的高阶行人再识别算法来学习姿态不变性的高阶行人特征,以解决行人姿态非对齐的问题。利用Kronecker积来融合多层次的全局和局部卷积特征,采用计数梗概函数将Kronecker积转化为Hadamard积,在没有明显地损害高阶特征的表达能力的情况下,压缩了高阶特征的维度。通过设计分组乱序Kronecker积算法,采用通道分组和分组乱序策略来充分学习组内和组间特征的高阶交互,降低了高阶计算过程的时间和空间复杂度。同时,还通过利用分组乱序Kronecker积来融合多个全图和前景的卷积特征,进而获得了全图和前景的高阶特征。实验结果验证了所提出的方法在不依赖行人姿态估计和特征分割的情况下能够有效地对齐不同行人图像的姿态;2.提出了一种基于困难模态对齐网络的跨模态行人再识别框架来解决模态差异的问题。考虑到不同维度的模态差异是非均衡分布的,首先挖掘具有较大模态差异的困难子空间,然后集中消除该困难子空间的模态差异,有助于学习具有模态不变性的行人特征。此外,该框架能够同时消除全局和局部的模态差异,提高了模型的跨模态泛化能力。实验结果表明,相比于其它跨模态行人再识别方法,该框架在性能上具有明显的优势;3.提出了一种基于多区域匹配网络的跨模态行人再识别框架来解决模态差异的问题。该框架能够同时对齐粗粒度和细粒度的区域特征的模态分布,并且迁移不同区域的语义知识来加强不同区域特征之间的相关性,提高了行人特征的鲁棒性。此外,该框架能够自适应地为困难区域任务分配较高的权重,为简单区域任务分配较低的权重,从而突出困难区域任务的优先程度。实验结果表明,该框架能够大幅度提升跨模态行人再识别的准确率;4.提出了一种基于多元变化特征生成的非均衡行人再识别框架框架来同时解决行人数据在类别样本和难易样本上的非均衡问题。该框架从成分分解和特征生成的角度来均衡每个类别的样本数量,从而学习到类别均衡的行人特征。采用对抗学习方法来提高伪特征的识别难度,为再识别模型提供了更多遍历参数空间的机会来获得最佳的模型参数,缓解了难易样本非均衡的问题。实验结果验证了所提方法的有效性。