多目标跟踪(Multiple Object Tracking,MOT)是一个计算机视觉任务,即识别和跟踪属于哪一类或者哪几类,没有任何先验知识的目标。与目标检测算法的输出不同,除了坐标、高度、宽度识别的矩形框的集合,多目标跟踪算法还将目标ID 关联到每个检测矩形框,以区分不同对象。多目标跟踪在本文的应用是在单个监控视频中跟踪多个车辆的轨迹,通过车辆轨迹统计当前监控断面车流量、每辆车的速度等交通流信息,同时通过轨迹的时空间信息判断车辆是否存在异常行为。
2013 年 Dicle 等人提出一种基于运动动力学的多目标检测跟踪框架,将问题表述为轨迹的广义线性分配(GLA),这些轨迹基于其基于动态的相似度递增地关联到更长的轨迹,并且使用改进的 Hankel Total Least Squares 来估计这些相似度度量。
2014 年 Seung-Hwan Bae 等人通过轨迹的置信度评估其的可靠程度,并用局部和全局两阶段关联构建最优轨迹,利用在线学习方法来识别不同的物体和正在进行跟踪的物体,有效解决了复杂环境下目标遮挡的难题。
2015 年 Kim 等人提出 MHT-DAM,为每个跟踪假设设计一种在线训练外观模型,通过多输出正则最小二乘法,高效的学习有良好区别能力的外观特征。
2015 年 Xiang 等人将在线 MOT 问题表述为策略学习多个马尔可夫决策过程(MDPS)中的决策问题, 其中一个对象的生存周期是用 MDP 建模的,可以自然地处理目标的生成/删除和出现/消失,将它们视为 MDP 中的状态转换。
2016 年 Alex Bewley 等人简单结合了卡尔曼滤波和匈牙利算法实现了实时性好,精度高的 SORT 在线追踪算法,相比同时期 SOTA 追踪器(MDP、MHT-DAM)快 20 倍左右,缺点是 ID 切换比较严重;一年后,该团队又提出 DEEP SORT算法,将重识别模型融入外观特征,增加级联匹配机制,改进算法能够克服跟踪过程中更长的时间的遮挡,有效地减少 ID 切换的数量。
2017 年 Milan 等人模拟贝叶斯滤波算法,首次将 RNN 模型作为主跟踪器,由 RNN 模型预测运动状态、管理轨迹的出现和消失,LSTM 模型计算检测与预测位置的关联矩阵,用于调整更新轨迹状态。虽然该算法在速度上优于其他技术(如卡尔曼滤波和匈牙利算法的组合),但精度却没有达到很高的水平。
为了解决手工设计不同帧之间目标亲和度鲁棒性差,难以区分高相似度物体的问题,2017 年 Sun 等人提出了一种深度亲和网络(Deep Affinity Network,DAN),以端到端方式在一对视频帧中共同学习目标对象的外观及其亲和性。该方法虽然在精度上高于同时期 SOTA 算法,但是处理速度较慢,达不到实时的跟踪效果。
简单地直接应用 SOT 模型来解决 MOT,会导致较差的结果,经常导致目标漂移和大量的 ID 切换错误,因为此类模型通常难以区分外观相似的类内对象。2019年 Feng 等人提出利用先进的单目标跟踪技术获得多个单目标的跟踪轨迹,再通过 ReID 特征完成单目标轨迹之间的 ID 切换,提高跟踪过程中的鲁棒性;同样,Zhu 等人应用先进的单目标跟踪技术,在轨迹关联时提出用时间空间双重注意力模型,但是大量的后期处理模型使得此类方法跟踪速度很慢。
2020 年,随着 anchor-free 检测方法的发展,CenterNet 检测器有着不错的表现,针对此检测器,Zhou 等人提出基于点的跟踪,即以两邻帧的检测图像作为输入,在训练 CenterNet 检测器的同时训练一个中心点的偏移量,仅根据预测偏移量与前一帧检测到的中心点之间的距离进行贪婪匹配,即可实现目标关联。
与 Deep Sort 类似,王春艳提出引用深度外观特征的在线分层数据关联跟踪算法;孟晓燕对基于相关滤波的 42 种跟踪算法做了详尽综述,思考了跟踪领域未来的发展方向;刘沛鑫[33]对基于关联的多目标跟踪算法面临的几大难点做了深入研究,首先,提出网络流数据关联求解算法,解决跟踪过程中目标数量不确定的问题,然后,提出将长短时记忆网络和条件随机场引入数据关联模型,旨在连接高相似度的轨迹片段,最后,提出一种马尔可夫随机场模型,有效关联跨视角行人跟踪轨迹片段。
虽然联合检测跟踪的跟踪框架是近年来的发展趋势,但 Tracking by Detection的灵活性以及检测网络性能的日益强大,使得这种跟踪框架仍是实际应用的主流框架。