【论文原文】:ByteTrack: Multi-Object Tracking by Associating Every Detection Box
论文地址:https://arxiv.org/abs/2110.06864
代码:https://github.com/ifzhang/ByteTrack
Leaderboard:https://motchallenge.net/results/MOT17/?det=Private
博主关键词: 多目标跟踪,YoloX,Sort
推荐相关论文:
Sort: Simple Online and Realtime Tracking
DeepSort: Simple Online and Realtime Tracking with a Deep Association Metric
摘要:
多目标追踪(MOT)的目的是估计视频中目标的边界框和id。大多数方法是通过关联分数高于阈值的检测框来获得id的。检测置信度较低的物体,例如被遮挡的物体,会被简单地去除,这就带来了不可忽略的真实目标漏检和轨迹碎片化。为了解决这个问题,我们提出了一种简单、有效和通用的关联方法,通过关联几乎所有的检测框而不是只关联高分的检测框进行跟踪。对于低分检测框,我们利用它们与轨迹的相似性来恢复真正的物体并过滤掉背景检测框。当应用于9个不同的最先进的跟踪模型时,我们的方法在IDF1得分上取得了一致的改进,范围从1到10个点。为了展示在MOT上的先进性能,我们设计了一个简单而强大的跟踪器,名为ByteTrack。我们首次在单台V100 GPU上以30 FPS的运行速度在MOT17的测试集上实现了80.3 MOTA、77.3 IDF1和63.1 HOTA。ByteTrack在MOT20、HiEve和BDD100K跟踪benchmark上也取得了最先进的性能。源代码、带有部署版本的预训练模型以及应用于其他跟踪方法的教程发布于 https://github.com/ifzhang/ByteTrack。
关键词 多目标跟踪,YoloX,Sort
简介:
基于检测的跟踪(tracking-by-detection)是目前多目标跟踪(MOT)最有效的范式。由于视频中的复杂场景,检测器很容易做出不完美的预测。最先进的MOT方法[1-3, 6, 12, 18, 45, 59, 70,72,85]需要处理检测结果中的真阳性/假阳性权衡,以消除低置信度检测框[4,40]。然而,消除所有低置信度检测框是正确的方法吗?我们的答案是否定的:正如黑格尔所说:“合理的东西就是真实的;真实的东西才是合理的。”低置信度检测框有时表示物体的存在,例如被遮挡的物体。滤除这些目标会导致MOT的不可逆误差,并带来不可忽略的漏检和碎片化轨迹。
Fig. 1.MOTA-IDF1-FPS comparisons of different trackers on the test set of MOT17. The horizontal axis is FPS (running speed), the vertical axis is MOTA, and the radius of circle is IDF1. Our ByteTrack achieves 80.3 MOTA, 77.3 IDF1 on MOT17 test set with 30 FPS running speed, outperforming all previous trackers. Details are given in Table 4.
图2 (a)和(b)显示了这个问题。在帧t1中,我们初始化三个不同的tracklet,因为它们的分数都高于0.5。但是,在帧t2和帧t3中,当遮挡发生时,红色轨迹对应的检测框得分降低,分别为0.8 ~ 0.4和0.4 ~ 0.1。这些检测框被阈值机制消除,红色轨迹随之消失。然而,如果我们将每个检测框都考虑为1,则会立即引入更多的假阳性,例如图2 (a)中帧t3中最右的框。据我们所知,MOT中很少有方法[30,63]能够处理这种检测困境。在本文中,我们发现,在低分检测结果中,与tracklet的相似性为区分物体和背景提供了强有力的线索。如图2 c所示,两个低分数检测框通过运动模型的预测框与轨迹进行匹配,从而正确恢复对象。同时,背景框被移除,因为它没有匹配的轨迹。
为了在匹配过程中充分利用从高分到低分的检测结果,我们提出了一种简单有效的关联方法,该跟踪方法对每个检测框进行赋值。每个检测框都是tracklet的一个基本单位,正如字节在计算机程序中称为byte一样,我们方法名为BYTE。首先根据运动相似度或外观相似度将高分检测盒与轨迹进行匹配。与[6]类似,我们采用卡尔曼滤波[29]来预测轨迹在新帧中的位置。相似度可以通过预测盒与检测盒的IoU或Re-ID特征距离来计算。图2 (b)就是第一次匹配后的结果。然后,我们在未匹配的tracklet(即红框中的tracklet)与使用相同运动相似度的低分检测框之间进行第二次匹配。图2 c显示了第二次匹配后的结果。检测分数低的被遮挡的人被正确地匹配到前面的轨迹,并且背景(在图像的右侧)被移除。
Fig. 2.. Examples of our method which associates every detection box. (a) shows all the detection boxes with their scores. (b) shows the tracklets obtained by previous methods which associates detection boxes whose scores are higher than a threshold, i.e. 0.5. The same box color represents the same identity. (c) shows the tracklets obtained by our method. The dashed boxes represent the predicted box of the previous tracklets using Kalman Filter. The two low score detection boxes are correctly matched to the previous tracklets based on the large IoU.
MOT作为目标检测与关联的综合课题,一个理想的解决方案绝不是使用检测器及其后续关联;此外,设计好它们的接口也很重要。BYTE的创新之处在于检测和关联的接口设计,其中低分检测框是促进两者的桥梁。得益于这种集成创新,当BYTE应用于9种不同的最先进的跟踪方法时,包括基于re -ID的跟踪器[33,47,69,85],基于运动的跟踪器[71,89],基于链的[48]和基于注意力的跟踪器[59,80],几乎所有的指标都取得了显著的改进,包括MOTA, IDF1分数和ID-s。例如,我们将Center Track[89]的MOTA从66.1增加到67.4,IDF1从64.2增加到74.0,id-s从528减少到144。
为了推进MOT的最先进的性能,我们提出了一个简单而强大的跟踪方法,称为ByteTrack。我们采用了最近的高性能检测器YOLOX [24]来获得检测结果,并将它们与我们提出的BYTE相关联。在MOT挑战中,ByteTrack在MOT17 [44]和MOT20 [17]上排名第一,在MOT17上获得了77.8MOTA,77.3IDF1和63.1 HOTA,V100GPU上运行速度30fps,在更拥挤场景的MO20上获得了77.8 MOTA,75.2 IDF1和61.3 HOTA。ByteTrack在HiEve [37]和BDD100K [79]跟踪基准测试上也取得了最先进的性能。我们希望ByteTrack的效率和简单性能够使它在社会计算等实际应用中具有吸引力。