【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪

简介: 【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪

【论文原文】:ByteTrack: Multi-Object Tracking by Associating Every Detection Box

论文地址:https://arxiv.org/abs/2110.06864

代码:https://github.com/ifzhang/ByteTrack

Leaderboard:https://motchallenge.net/results/MOT17/?det=Private

博主关键词: 多目标跟踪,YoloX,Sort

推荐相关论文:

Sort: Simple Online and Realtime Tracking

DeepSort: Simple Online and Realtime Tracking with a Deep Association Metric


摘要:


多目标追踪(MOT)的目的是估计视频中目标的边界框和id。大多数方法是通过关联分数高于阈值的检测框来获得id的。检测置信度较低的物体,例如被遮挡的物体,会被简单地去除,这就带来了不可忽略的真实目标漏检和轨迹碎片化。为了解决这个问题,我们提出了一种简单、有效和通用的关联方法,通过关联几乎所有的检测框而不是只关联高分的检测框进行跟踪。对于低分检测框,我们利用它们与轨迹的相似性来恢复真正的物体并过滤掉背景检测框。当应用于9个不同的最先进的跟踪模型时,我们的方法在IDF1得分上取得了一致的改进,范围从1到10个点。为了展示在MOT上的先进性能,我们设计了一个简单而强大的跟踪器,名为ByteTrack。我们首次在单台V100 GPU上以30 FPS的运行速度在MOT17的测试集上实现了80.3 MOTA、77.3 IDF1和63.1 HOTA。ByteTrack在MOT20、HiEve和BDD100K跟踪benchmark上也取得了最先进的性能。源代码、带有部署版本的预训练模型以及应用于其他跟踪方法的教程发布于 https://github.com/ifzhang/ByteTrack。

关键词  多目标跟踪,YoloX,Sort


简介:


基于检测的跟踪(tracking-by-detection)是目前多目标跟踪(MOT)最有效的范式。由于视频中的复杂场景,检测器很容易做出不完美的预测。最先进的MOT方法[1-3, 6, 12, 18, 45, 59, 70,72,85]需要处理检测结果中的真阳性/假阳性权衡,以消除低置信度检测框[4,40]。然而,消除所有低置信度检测框是正确的方法吗?我们的答案是否定的:正如黑格尔所说:“合理的东西就是真实的;真实的东西才是合理的。”低置信度检测框有时表示物体的存在,例如被遮挡的物体。滤除这些目标会导致MOT的不可逆误差,并带来不可忽略的漏检和碎片化轨迹。


640.png

Fig. 1.MOTA-IDF1-FPS comparisons of different trackers on the test set of MOT17. The horizontal axis is FPS (running speed), the vertical axis is MOTA, and the radius of circle is IDF1. Our ByteTrack achieves 80.3 MOTA, 77.3 IDF1 on MOT17 test set with 30 FPS running speed, outperforming all previous trackers. Details are given in Table 4.


图2 (a)和(b)显示了这个问题。在帧t1中,我们初始化三个不同的tracklet,因为它们的分数都高于0.5。但是,在帧t2和帧t3中,当遮挡发生时,红色轨迹对应的检测框得分降低,分别为0.8 ~ 0.4和0.4 ~ 0.1。这些检测框被阈值机制消除,红色轨迹随之消失。然而,如果我们将每个检测框都考虑为1,则会立即引入更多的假阳性,例如图2 (a)中帧t3中最右的框。据我们所知,MOT中很少有方法[30,63]能够处理这种检测困境。在本文中,我们发现,在低分检测结果中,与tracklet的相似性为区分物体和背景提供了强有力的线索。如图2 c所示,两个低分数检测框通过运动模型的预测框与轨迹进行匹配,从而正确恢复对象。同时,背景框被移除,因为它没有匹配的轨迹。


为了在匹配过程中充分利用从高分到低分的检测结果,我们提出了一种简单有效的关联方法,该跟踪方法对每个检测框进行赋值。每个检测框都是tracklet的一个基本单位,正如字节在计算机程序中称为byte一样,我们方法名为BYTE。首先根据运动相似度或外观相似度将高分检测盒与轨迹进行匹配。与[6]类似,我们采用卡尔曼滤波[29]来预测轨迹在新帧中的位置。相似度可以通过预测盒与检测盒的IoU或Re-ID特征距离来计算。图2 (b)就是第一次匹配后的结果。然后,我们在未匹配的tracklet(即红框中的tracklet)与使用相同运动相似度的低分检测框之间进行第二次匹配。图2 c显示了第二次匹配后的结果。检测分数低的被遮挡的人被正确地匹配到前面的轨迹,并且背景(在图像的右侧)被移除。

640.png

Fig. 2.. Examples of our method which associates every detection box. (a) shows all the detection boxes with their scores. (b) shows the tracklets obtained by previous methods which associates detection boxes whose scores are higher than a threshold, i.e. 0.5. The same box color represents the same identity. (c) shows the tracklets obtained by our method. The dashed boxes represent the predicted box of the previous tracklets using Kalman Filter. The two low score detection boxes are correctly matched to the previous tracklets based on the large IoU.


MOT作为目标检测与关联的综合课题,一个理想的解决方案绝不是使用检测器及其后续关联;此外,设计好它们的接口也很重要。BYTE的创新之处在于检测和关联的接口设计,其中低分检测框是促进两者的桥梁。得益于这种集成创新,当BYTE应用于9种不同的最先进的跟踪方法时,包括基于re -ID的跟踪器[33,47,69,85],基于运动的跟踪器[71,89],基于链的[48]和基于注意力的跟踪器[59,80],几乎所有的指标都取得了显著的改进,包括MOTA, IDF1分数和ID-s。例如,我们将Center Track[89]的MOTA从66.1增加到67.4,IDF1从64.2增加到74.0,id-s从528减少到144。


为了推进MOT的最先进的性能,我们提出了一个简单而强大的跟踪方法,称为ByteTrack。我们采用了最近的高性能检测器YOLOX [24]来获得检测结果,并将它们与我们提出的BYTE相关联。在MOT挑战中,ByteTrack在MOT17 [44]和MOT20 [17]上排名第一,在MOT17上获得了77.8MOTA,77.3IDF1和63.1 HOTA,V100GPU上运行速度30fps,在更拥挤场景的MO20上获得了77.8 MOTA,75.2 IDF1和61.3 HOTA。ByteTrack在HiEve [37]和BDD100K [79]跟踪基准测试上也取得了最先进的性能。我们希望ByteTrack的效率和简单性能够使它在社会计算等实际应用中具有吸引力。

相关文章
|
7月前
|
计算机视觉 异构计算
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
|
7月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
2月前
|
存储 算法 语音技术
基于卡尔曼滤波的声源跟踪方法研究(上)
基于卡尔曼滤波的声源跟踪方法研究(上)
27 0
基于卡尔曼滤波的声源跟踪方法研究(上)
|
2月前
|
人工智能 算法 机器人
基于卡尔曼滤波的声源跟踪方法研究(下)
基于卡尔曼滤波的声源跟踪方法研究(下)
44 0
|
7月前
|
传感器 自动驾驶 测试技术
【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
|
人工智能 自然语言处理 知识图谱
【论文速递】COLING 2022 - 带有事件论元相关性的事件因果关系抽取
事件因果关系识别(ECI)是事件因果关系理解的重要任务,其目的是检测两个给定文本事件之间是否存在因果关系。然而,ECI任务忽略了关键的事件结构和因果关系组件信息
143 0
|
7月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
|
存储 机器学习/深度学习 机器人
对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023
对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023
190 0
|
机器学习/深度学习 传感器 编解码
CenterFormer | CenterNet思想究竟有多少花样?看CenterFormer在3D检测全新SOTA
CenterFormer | CenterNet思想究竟有多少花样?看CenterFormer在3D检测全新SOTA
154 0
|
编解码 计算机视觉
最强检测 | YOLO V4?都是弟弟! CenterNet2以56.4mAP超越当前所有检测模型(附源码与论文)(二)
最强检测 | YOLO V4?都是弟弟! CenterNet2以56.4mAP超越当前所有检测模型(附源码与论文)(二)
261 0