视频监控中的行人再识别算法研究
【摘要】:近年来,面向平安城市、智慧城市等安防工程的重大需求,视频监控系统已经在全国各地被广泛地部署。大规模视频监控网络每天产生海量的视频数据,传统的人工数据分析手段已远不能满足现阶段的安防需求。因此智能视频监控系统备受科研机构和公安部门关注。行人再识别是智能视频监控系统中的关键一环,该技术旨在判断不同摄像头采集到的不同行人图像/视频是否为同一目标行人。行人再识别技术能够在大规模数据库中对特定行人进行快速有效地检索追踪,它已成为计算机视觉和多媒体分析等领域的热门研究方向。由于实际监控环境复杂多变,传统可靠的生物特征无法有效获取,行人再识别技术目前主要依靠外观信息识别不同行人。而由于视角变化、光照变化、遮挡等因素影响,精确且鲁棒的行人再识别仍然是十分有挑战性的任务。本文对行人再识别进行了深入和系统性研究,根据不同的特征信息和应用场景,从四个方向设计不同的算法模型,提升行人再识别的性能。主要研究内容和创新如下:(1)基于外观信息的行人再识别。本文基于深度学习技术,设计了两种不同的网络模型。1.多尺度三元组卷积神经网络,该模型联合特征提取与度量学习,从图像中抽取多尺度的外观信息,学习具有区分力的行人特征。此外,该网络提出一种改进的三元组损失函数来优化模型。2.联合上下文及比较性注意力的卷积神经网络,它利用人体部位间的关联性提取上下文感知特征,同时使用注意力比较模块提取注意力感知比较特征。最后联合这两种互补的特征学习更有效的行人特征。实验结果表明了这两种网络模型的有效性,并取得高识别精度。(2)基于外观信息及语义属性的行人再识别。针对外观特征易受到不同因素干扰,鲁棒性能较差,本文提出联合语义属性和视觉外观两种不同特征,设计了一种基于上下文及注意力的属性外观网络模型,以此自动学习具有分辨力和鲁棒性的行人特征,提升网络模型的鲁棒性能。在多个图像数据集上的实验结果表明该网络能够提取有效的行人特征,并取得较高的识别性能。(3)基于外观和时序信息的行人再识别。相较于图像,视频序列蕴含更丰富的时序信息。为了充分利用这些信息,本文提出了一种稠密3D卷积神经网络。该网络结合3D卷积操作和残差模块,能够自动地从视频序列中学习有效的外观和时空特征。同时它使用识别损失和中心损失进行联合优化,学习更具区分性的行人特征。在两个公开的视频数据集上的实验结果,验证了该方法的有效性。(4)基于跨领域匹配的行人再识别。现有方法泛化性能较差,导致其难以在实际场景应用。本文针对这个问题,提出一种自适应迁移网络。该模型深入研究产生域间差异的“黑盒子”,将复杂的跨域转换任务分解为一组中间子任务,并根据不同因素的影响自适应地生成更加符合目标域风格的图像,提升模型的泛化性能。在多个图像数据集上的实验结果,表明了该方法能够有效地缩小域间差异,提升跨域识别率。