基于深度学习的单目标视频跟踪算法研究
【摘要】:随着人工智能技术的不断发展,目标跟踪技术作为智能监控、智能机器人、人机交互和自动驾驶等诸多领域的主要技术得到了广泛关注。其任务是在给定目标初始位置后,在后续的视频序列中给出目标位置,获取目标运动轨迹。近年来,深度学习(Deep Learning)技术开始在计算机视觉领域取得广泛应用,基于深度学习的目标跟踪算法在目标跟踪领域虽然取得了非常多的成果,但由于跟踪目标和场景具有复杂、多样的特点,使实际场景下保持目标跟踪算法的准确性和鲁棒性仍然是极具挑战性的研究课题。如何合理地利用深度学习算法改进目标跟踪算法的效果是本文主要的研究任务,全文的主要工作如下:(1)提出并实现了基于改进对抗学习的实时目标跟踪算法。由于视频序列中每一帧的正样本在空间上高度重叠而无法捕捉到目标丰富的外观变化,使现有的基于深度分类网络的跟踪器的性能受到限制。本方法利用对抗学习来加强正样本特征的鲁棒性,使提取到的特征对目标的表观变化不敏感,并且通过带有调节因子的改进的目标函数以处理正负样本不平衡的问题,来避免模型在学习过程中受到的干扰,同时添加了一个惩罚项保证生成特征和真实特征的相似性。基于深度神经网络的跟踪算法MDNet在提取待跟踪目标特征时是在候选区域利用原图提取特征,导致计算复杂度较高,跟踪速度不能满足实时的要求。本方法通过构造高分辨率特征图,并且扩大每次激活的感受野,同时提出基于Pr ROIPooling的算法提取目标和候选对象的更准确的表示,并改善目标定位,加快了特征提取的速度,有助于学习目标丰富的语义信息。(2)提出并实现了基于判别性时间正则化背景感知网络的目标跟踪算法。为了避免边界效应,同时考虑到时间序列中运动目标相邻帧之间的关系,本文提出了一种时间正则化策略来改进背景感知相关滤波跟踪器,使跟踪算法可以有效地调整模型以适应跟踪场景的复杂变化。为了充分发挥卷积特征的优势,本文结合时间正则化背景感知相关滤波器和孪生网络,应用交替方向乘子算法(ADMM)对相关滤波进行求解,将相关滤波层嵌入到网络模型中得到一种可以实现端到端方式训练的跟踪模型。最后在网络结构中嵌入了残差注意力机制模块来增强网络的特征表达能力,来提升算法的性能。为了对提出的两种目标跟踪算法的有效性进行验证,本文在两个主流基准测试数据集(OTB-2013数据集和OTB-2015数据集)上进行实验分析,实验结果表明,两种目标跟踪算法均可提升精确率和成功率。