多目标跟踪(MOT)旨在在帧间检测和关联所有所需的目标。大多数方法通过明确或隐式地利用强大的线索(即空间和外观信息)来完成任务,这些线索表现出强大的实例级别判别能力。然而,当出现目标遮挡和聚类时,由于目标之间的高度重叠,空间和外观信息同时变得模糊不清。
在本文中,作者证明MOT中这个长期以来的挑战可以通过引入弱线索来有效地解决,以补偿强线索的不足。作者引入了「速度方向」、「置信状态」和「高度状态」作为潜在的「弱线索」。在性能方面表现优越的同时,作者的方法仍保持了简单、在线和实时(SORT)的特性。
此外,作者的方法以即插即用的方式在各种追踪器和场景中展现出强大的泛化能力,并且无需训练。将作者的方法应用于5个不同的代表性追踪器时,观察到了显著而一致的改进。
此外,通过同时利用强弱线索,作者的混合SORT方法在多个基准测试中都表现出卓越的性能,包括MOT17、MOT20,特别是在交互和遮挡频繁且严重的DanceTrack数据集上。
1、简介
最近,基于检测的多目标跟踪已经成为多目标跟踪(MOT)中最受欢迎的范例,将问题分为两个子任务:
- 第一个任务是在每一帧中检测目标
- 第二个任务是在不同的帧之间关联这些目标
关联任务主要通过明确或隐式地利用强线索来解决,包括空间和外观信息。这种设计是合理的,因为这些强线索为每个目标提供了强大的实例级别判别能力(即全局判别)。然而,常用的强线索在挑战性情况下(例如遮挡和聚类)下会出现退化(图1中的ID 1和2)。
具体而言,当两个目标在当前帧中高度重叠时,检测和估计的轨迹位置之间的交并比(IoU)变得模糊不清,而两个目标的外观特征被前景目标所主导(图1右上角的红色虚线箭头)。
在图1的右下角部分,作者展示了弱线索(例如置信度状态、高度状态和速度方向)如何有效地缓解强线索变得不可靠的模糊关联。然而,据作者所知,除了极少数方法(例如OC-SORT,MT-IOT),大多数方法都忽视了弱线索,因为它们只在某些目标之间具有可靠的判别能力。如图1所示,置信度状态只在ID 2和其他ID之间具有判别性。
在本文中,作者选择置信度状态和高度状态作为潜在的弱线索类型,除了OC-SORT中使用的速度方向。置信度状态可以明确地指示聚类目标之间的遮挡/被遮挡(前景/背景)关系,提供了强线索(即空间和外观信息)所缺乏的关键线索。高度状态是目标的一个稳定属性,通常对不同的目标姿势具有稳健性,并且包含一定程度的深度信息(即反映了相机到目标的距离)。
为了保持简单、在线和实时(SORT)的能力,作者提出了简单而有效的策略来利用上述弱线索,并在关联步骤中加以利用,即“Tracklet Confidence Modeling”(TCM)和“Height Modulated IoU”(HMIoU)。这两种建模都由两部分组成:状态估计和成本计算。
在状态估计中,作者使用卡尔曼滤波器和线性预测来根据轨迹的历史置信度状态估计轨迹的置信度状态,然后将其用作与高置信度和低置信度检测进行关联的度量。对于高度状态,作者也使用卡尔曼滤波器进行估计。在关联的成本计算中,置信度成本矩阵是估计的轨迹置信度与检测置信度之间的绝对差异。高度成本矩阵首先被定义为估计轨迹框和检测框之间沿高度轴的IoU,然后与由空间信息生成的IoU矩阵融合。
为了评估作者设计的泛化能力,作者将提出的建模方法应用于5个不同的代表性追踪器,包括SORT、DeepSORT、MOTDT、ByteTrack和OC-SORT。作者对置信度状态和高度状态的两种设计都持续地实现了显著的改进,证明了在关联任务中弱线索的重要性。
例如,通过将Tracklet Confidence Modeling(TCM)应用于DeepSORT,HOTA在DanceTrack验证集上增加了4.9,在MOT17验证集上增加了0.9。通过将Height Modulated IoU(HMIoU)应用于SORT,HOTA在DanceTrack验证集上增加了1.6,在MOT17验证集上增加了1.0。
此外,为了推进Simple,Online和Real-Time(SORT)多目标跟踪方法的最新性能,作者将当前最先进的SORT-like算法OCSORT进行了修改,作为作者的强基准。
- 首先,作者通过将观察中心动量(OCM)的框中心扩展为4个框角点和固定时间间隔扩展为多个时间间隔,来修改OC-SORT中的速度方向建模。
- 其次,作者在ByteTrack之后,对低置信度检测进行了额外的关联阶段。
结合提出的TCM和HMIoU,Hybrid-SORT在所有DanceTrack、MOT17和MOT20基准测试上通过利用强弱线索实现了优越的性能,同时仍保持Simple,Online和Real-Time(SORT)特性。
作者希望Hybrid-SORT的泛化能力、即插即用和无需训练的特点使其在各种真实世界场景和边缘设备中具有吸引力。作者的贡献可以总结如下:
- 证明了引入弱线索(即置信度状态、高度状态和速度方向)可以显著减轻遮挡和聚类等长期存在的挑战,作为对常用强线索的补偿。
- 引入简单的Tracklet Confidence Modeling(TCM)和Height Modulated IoU(HMIoU)来对置信度状态和高度状态进行建模和利用。通过精细的建模,弱线索可以有效地、高效地缓解由强线索产生的模糊匹配,而附加计算量可忽略不计。
- 这种即插即用和无需训练的设计在不同的场景和追踪器上都具有良好的泛化能力。作者在5个代表性追踪器上实现了作者的设计,实现了一致且显著的改进。最后,作者的方法Hybrid-SORT在DanceTrack、MOT17和MOT20基准测试中取得了优越的性能。
2、相关工作
2.1、启发式匹配器
1、基于空间的启发式匹配器
空间信息是高FPS基准测试中最广泛使用的强线索。当帧之间的时间间隔很短时,目标的移动也很小,可以视为线性移动。这使得空间信息在短期关联中成为准确的度量标准。先驱性的工作SORT使用卡尔曼滤波器来预测轨迹的空间位置,并基于IoU度量将它们与检测框进行关联。
随后的工作,如CenterTrack、ByteTrack和OC-SORT,都是利用空间信息进行启发式匹配的方法,用来将轨迹与检测框进行匹配。然而,即使是最先进的方法OC-SORT,在遮挡和聚类方面仍然存在困难。
2、基于外观的启发式匹配器
与空间信息不同,外观信息在整个视频中具有相对稳定的一致性,因此有利于长期关联。DeepSORT在SORT的基础上,引入了一个独立的ReID模型来提取外观特征进行关联。
随后的工作JDE、FairMOT、CSTrack和QDTrack将检测和ReID模型进行了联合训练,并设计了改进的网络架构来提高性能。然而,作者观察到在聚类的目标中,无论是否为外观信息或空间信息,都存在严重的判别性退化,即使为了联合利用这两种信息,设计了精细的网络架构和关联策略。
2.2、可学习匹配器
1、基于图的可学习匹配器
基于图的可学习匹配器将关联任务构建为一个边分类任务,其中边标签为1表示轨迹节点和具有相同ID的检测节点,反之亦然。MOTSolv和GMTracker基于图神经网络(GNN)进行数据关联,并使得关联步骤可微分。
最近,SUSHI利用图模型将短轨迹层级连接成长轨迹,在离线方式下进行。然而,基于图的匹配器的主要限制是训练和推断流程通常很复杂甚至是离线的,这限制了它们在对实时性要求严格的在线跟踪场景(如自动驾驶)中的实际应用。
2、基于Transformer的可学习匹配器
自从Transformer在视觉任务中变得流行,许多工作都提出利用其强大的注意力机制来对关联任务进行建模。TrackFormer和MOTR同时利用轨迹查询和标准检测查询来执行轨迹传播和初始化。
最近,MOTRv2在MOTR的基础上引入了一个独立的检测器,试图解决检测和关联之间的冲突。然而,基于Transformer的匹配器涉及大量的自注意/交叉注意操作,阻止算法实现实时能力。
3、本文方法
3.1、弱线索建模
在本节中,作者首先介绍两种新引入的弱线索(即置信度状态和高度状态)的建模策略,即轨迹置信度建模(TCM)和高度调节IoU(HMIoU),这两种方法都是可插拔和无需训练的。
3.2、轨迹置信度建模
作者证明了之前被忽视的置信度状态在处理严重遮挡和聚类时是有效的信息,可以弥补强线索的模糊性。从高层次的角度来看,轨迹在每个时间步的状态应该是连续变化的,这是常识和关键指导原则。作为检测器提供的状态之一,同一轨迹的置信度状态也应该表现出时间上的连续性。然而,由于置信度状态无法区分所有目标(即只对某些目标的置信度是不同的),它被现有方法忽视了。
置信度状态对关联的帮助原因很简单。具体来说,当常用的强线索(即空间和外观信息)在多个目标高度重叠时失效时,目标的置信度提供了明确的前景/背景(即遮挡/被遮挡)关系,这正是强线索所缺乏的。这是因为检测无遮挡的目标往往会得到较高的置信度分数,而遮挡的目标对检测提出更大的挑战,导致较低的置信度分数。
基于这个洞察力,作者引入了两种轨迹置信度的建模方法,用于与「高置信度」和「低置信度」的检测进行关联。当目标无遮挡或只有轻微遮挡时,卡尔曼滤波器是一种理想的模型,用于建模和估计在一个小范围内变化的连续状态。
因此,作者在SORT中广泛使用的标准卡尔曼滤波器中加入了两个附加状态:轨迹置信度及其速度分量。为了更清晰,首先回顾SORT中标准卡尔曼滤波器的状态,如公式1所示。其中,和表示目标的中心,而和表示目标框的尺度(面积)和长宽比。速度分量由、和表示。
通过引入两个新的状态和,TCM中的卡尔曼滤波器的完整状态如公式2所示。
对于第二步关联中的低置信度检测,作者利用线性预测来估计轨迹置信度。ByteTrack已经证明,低置信度通常对应严重的遮挡和聚类情况。在遮挡开始或结束时,目标的置信度会迅速增加或减少。然而,当卡尔曼滤波器试图估计置信度状态的突然变化时,会出现明显的滞后,如图3所示。
然而,作者观察到在这个短时间内,置信度状态的变化趋势呈现明显的方向性(即持续增加或减少)。因此,作者使用基于轨迹历史的简单线性预测来解决这个问题。线性建模的公式如公式3所示,其中表示保存在轨迹记忆中的轨迹置信度。
无论使用卡尔曼滤波器还是线性预测,置信度成本都通过公式4计算,即估计的轨迹置信度与检测置信度之间的绝对差。
3.3、高度调节IoU
识别目标的时间稳定性是多目标跟踪(MOT)中最关键的方面之一。除了置信度状态外,高度状态也提供了有用的弱线索,有助于弥补强线索的辨别能力。
具体来说,高度状态在两个方面增强了关联:
- 首先,目标的高度在一定程度上反映了深度信息。对于像DanceTrack这样的数据集,检测框的高度主要取决于目标与摄像机之间的距离。这使得高度状态成为区分高度重叠目标的有效线索。
- 其次,高度状态相对于多样的姿态较为稳定,使其成为准确估计的状态和目标的高质量表示。
「为什么不选择目标的宽度作为状态?」 原因是图像中目标框的宽度往往由于姿态变化或肢体动作而不规则变化,在DanceTrack数据集中尤为严重,如图5所示。状态的高度变化通常仅发生在目标蹲下或站起时,这是一个相对短暂且连续的过程,可以通过卡尔曼滤波器有效地建模。
高度状态的利用在图4中以可视化方式呈现。具体来说,作者定义两个框为,,,和,,,,其中和表示左上角,和表示右下角。
同时,作者定义两个框的面积分别为A和B。传统IoU的计算如公式5和图4 (a) 所示,它基于面积度量。进一步地,可以通过使用高度度量来计算高度IoU(HIoU),如公式6和图4 (b) 所示。
为了更好地利用高度状态,作者引入高度调节IoU(HMIoU),通过将高度IoU(HIoU)与传统IoU组合,如公式7和图4 (c) 所示,其中 表示逐元素乘法。考虑到HIoU代表高度状态,即弱线索,而IoU代表空间信息,即强线索,作者使用HIoU通过逐元素乘法来调节IoU,从而增强了对遮挡或聚类目标的辨别能力。
3.4、Hybrid-SORT
在本节中,作者介绍Hybrid-SORT和Hybrid-SORT-ReID。对于Hybrid-SORT,作者将Tracklet Confidence Modeling (TCM)和Height Modulated IoU (HMIoU)的技术与增强版本的OC-SORT结合在一起,对OC-SORT进行了两方面的修改。
- 首先,作者将Observation-Centric Momentum (OCM)替换为Robust OCM,以更稳健地建模速度方向。
- 其次,作者按照ByteTrack的方法,将低置信度检测加入到关联过程中。对于Hybrid-SORT-ReID,作者加入了一个独立的ReID模型来增强跟踪性能。
3.5、Robust OCM
在OC-SORT中,Observation-Centric Momentum (OCM)考虑了关联中目标中心的速度方向。OCM使用的成本度量是轨迹速度方向θ与轨迹到检测的速度方向θ之间的绝对差值,以弧度表示,表示为θθθ。轨迹速度方向是通过轨迹中两个框的中心在时间间隔内获得的,轨迹到检测的速度方向是通过轨迹历史框的中心和新检测框的中心获得的。
给定两个点和,速度方向计算公式如公式8所示。然而,原始OCM的建模对于由于固定时间间隔和稀疏状态(即仅有目标中心)引起的噪声是脆弱的。
在本节中,作者通过引入更详细和稳健的建模来增强OCM,以提供更全面准确的目标速度方向表示。作者的修改包括两个方面:
- 首先,作者将固定的3帧时间间隔扩展为多个时间间隔的堆叠,范围从1到3。
- 其次,作者使用目标的4个角而不是中心点来计算速度方向。
如图6所示,对于一个轨迹和它正确匹配的检测来说,由于姿态突然变化,轨迹和轨迹到检测中心的速度方向可能完全相反,导致错误匹配。通过将中心扩展到4个角,轨迹和轨迹到检测中心的2个左角的速度方向保持高相似性,从而产生正确匹配。这进一步证明了使用4个角计算OCM的更高稳健性。通过多个时间间隔,Robust OCM的计算公式如公式9所示。
3.6、外观建模
作者使用独立的ReID模型来整合外观信息,如图1所示。按照BoT-SORT的方法,作者的流程首先检测目标,然后将结果裁剪的补丁送入ReID模型。作者使用指数移动平均(EMA)来建模轨迹的外观信息,并使用余弦距离作为计算轨迹外观特征与检测外观特征相似性的度量。需要注意的是,ReID组件不是作者论文的重点。
3.7、算法框架
关联阶段主要包括3个阶段:
- 第一阶段是高置信度目标的关联
- 第二阶段是低置信度目标的关联(ByteTrack中的BYTE)
- 第三阶段是利用最后一个检测恢复丢失的轨迹(OC-SORT中的OCR)
考虑到所有前述的强线索和弱线索,最终的成本矩阵基本包括以下几个部分:
混合SORT和混合SORTReID的伪码如算法1所示。
4、实验
4.1、DanceTrack数据集
与以前的最先进的启发式跟踪器OC-SORT相比,Hybrid-SORT在所有指标上表现出显着优越性(即7.6 HOTA、8.4 IDF1和2.0 MOTA),并为启发式跟踪器设置了新的HOTA最先进记录,达到62.2,而关联输入相同且计算复杂度几乎相同(参见表1)。结果提供了有力的证据,即引入和建模多种类型的弱线索,如置信度状态和高度状态,可以有效且高效地解决强线索失败时出现的模糊和错误匹配。
此外,通过独立的ReID模型,Hybrid-SORT-ReID在启发式跟踪器的DanceTrack数据集上实现了更高的HOTA最先进记录,达到65.7。对于表现更高的可学习匹配器跟踪器,MOTRv2也是基于YOLOX检测器,但是使用改进的Deformable DETR作为匹配器,其包括6层Transformer编码器和6层Transformer解码器,而SUSHI则使用GNN作为匹配器,并具有完全离线的流程。
4.2、MOT20数据集
值得注意的是,Hybrid-SORT在MOT20测试集(如表2所示)中实现了卓越的性能,并具有高推断速度。
具体而言,Hybrid-SORT在所有指标上均优于OC-SORT(即0.4 HOTA、0.3 IDF1和0.9 MOTA),而附加计算几乎无法区分。通过使用独立的ReID模型,Hybrid-SORT在启发式跟踪器的MOT20数据集上实现了HOTA 63.9的最先进性能。结果表明了所提出方法在建模弱线索用于密集目标的聚类和严重遮挡情况下的有效性、稳健性和泛化能力。
4.3、MOT17数据集
在表3中展示了Hybrid-SORT在MOT17数据集上的性能。具体来说,Hybrid-SORT在所有指标(即HOTA、IDF1和MOTA)上均超过了之前的最先进的跟踪器OC-SORT,而且额外的计算量几乎可以忽略不计。
通过引入独立的ReID模型,Hybrid-SORT进一步提高了性能,在MOT17上达到了64.0的高HOTA。这些结果表明了对弱线索的建模具有很好的泛化性,即使在具有主要线性运动模式的简单场景中,这些模式相对于现有方法来说已经很好地解决了。
值得注意的是,本文的方法主要是为了应对对象聚类和复杂运动模式带来的挑战。尽管如此,即使应用于MOT17数据集,该数据集代表了更普遍的线性运动模式场景,本文的方法仍然展现出了持续改进的跟踪性能。
4.4、消融实验
1、组件贡献
作者进行了消融研究,以评估在DanceTrack和MOT17验证集上所提出组件的贡献,如表4所示。结果表明了在Hybrid-SORT中提出模块的有效性。由TCM建模的置信度状态显著提高了两个数据集上的性能,DanceTrack上分别提升了4.0 HOTA、5.3 IDF1和0.5 MOTA,MOT17上分别提升了0.4 HOTA、0.8 IDF1和0.7 MOTA。
同样地,HMIoU的使用分别使得DanceTrack的HOTA提高了1.6,MOT17的HOTA提高了0.3。作者认为在MOT17的大多数视频中,运动模式是线性的。相反,DanceTrack涉及更复杂的运动和更严重的聚类情况,Hybrid-SORT的优越性得到了明确的证明。
这些结果表明,弱线索,如置信度状态和高度状态,在各种场景下能够有效地弥补常用的强线索的不足,即使它们只能区分某些目标(即局部判别)。
2、组件效率
如表4所示,HybridSORT在所有提出的组件中仍然保持实时性能。为了建立一个强大的Baseline,作者将ByteTrack中的低置信度检测(BYTE)和OC-SORT中的Robust OCM用于改进。引入BYTE对推理速度几乎没有影响(-0.2 FPS),而Robust OCM导致了1.5 FPS的降低。这种现象可以归因于将速度方向从1个单点(即中心)过渡到4个点(即角点),并且具有不同的时间间隔范围(从1-3帧)的过程。至于本文的两个主要贡献,TCM对推理速度几乎没有影响(-0.7 FPS),而HMIoU几乎不影响推理速度(-0.1 FPS)。所有以上结果表明了Hybrid-SORT的高效性。
通过使用BoT-SORT中常用的ReID模型进行公平比较,Hybrid-SORT-ReID的推理速度接近实时。主要原因是特征提取的分离和ReID模型的高维特征。然而,将ReID模型高效地纳入MOT框架超出了本文的范围。
3、TCM中的建模策略
如前所述,作者使用Kalman Filter来估计第一关联阶段的高置信度检测的轨迹置信度,而使用Linear Prediction来处理第二关联阶段的低置信度检测。
在表5中,作者研究了这两种置信度状态建模方法在DanceTrack验证集上的性能。在第一关联阶段中,使用Kalman Filter显著提高了2.9 HOTA的关联性能,而Linear Prediction降低了1.1 HOTA。作者将这一结果归因于高置信度检测通常不会受到严重的遮挡。
因此,轨迹置信度在一个小范围内变化,这可以有效地通过Kalman Filter建模。另一方面,Linear Prediction失败是因为置信度变化没有明显的方向性趋势。在第二关联阶段中,对于低置信度检测,Kalman Filter和Linear Prediction表现良好(分别为0.7和1.1 HOTA),后者表现略优。
正如在ByteTrack中讨论的那样,第二阶段关联发生在目标严重聚类的情况下。因此,置信度可以在聚类开始或结束时迅速下降或增加。Kalman Filter无法对这样的突然变化进行建模,因此其估计通常落后于实际置信度。然而,Linear Prediction可以很好地对方向变化进行建模。总的来说,Kalman Filter对于没有或轻微遮挡的目标具有满意的估计能力,而Linear Prediction更适合于严重遮挡的目标。
4、高度状态优于宽度状态
如上所述,高度状态而不是宽度状态可以有助于关联。类似于图4和公式7中展示的高度调制IoU(HMIoU),可以通过将基于面积度量的标准IoU与基于宽度度量的宽度IoU(WIoU)融合来获得基于宽度度量的宽度调制IoU(WMIoU)。
如表6所示,宽度状态对关联性能产生了明显的负面影响,而高度状态对关联性能有益。总的来说,规律性变化的状态可以很好地进行建模从而有益于关联,而不规则的状态很难精确估计从而对关联造成伤害。
5、Robust OCM的形式
表7展示了不论是否使用BYTE关联,无论是使用1-3帧间隔获取的堆叠速度方向还是使用4个角点而不是中心点,都能够在DanceTrack验证集上提高HOTA。这些结果表明,引入更详细和更稳健的建模方法可以提高关联性能。
6、在其他跟踪器上的普遍性
作者将作者的设计应用于其他4个代表性的启发式跟踪器,即SORT,DeepSORT,MOTDT和ByteTrack。在这些跟踪器中,SORT和ByteTrack仅依赖于空间信息,而MOTDT和DeepSORT共同利用空间信息和外观信息。
结果如表8和表9所示,可以看到在DanceTrack和MOT17数据集中,对所有前述跟踪器都有显着改进。例如,作者的设计TCM将DeepSORT在DanceTrack上的HOTA提高了4.9,在MOT17上提高了0.9,而作者的HMIoU将SORT在DanceTrack上的HOTA提高了1.6,在MOT17上提高了1.0。
这些结果有力地证明了作者引入置信度状态和高度状态等弱线索作为强线索的补充的想法是有效的,并且在不同的跟踪器和场景中具有良好的泛化性。此外,作者的方法可以直接应用于现有的跟踪器,以增强性能,而无需进行额外的训练。
5、参考
[1].Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking.