【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪

简介: 【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪

【论文原文】:ByteTrack: Multi-Object Tracking by Associating Every Detection Box

获取地址:https://arxiv.org/pdf/2110.06864.pdf

博主关键词: 多目标跟踪,数据关联

推荐相关论文:

- 无


摘要:


多目标跟踪(MOT)旨在估计视频中物体的边界框和身份。大部分方法是通过关联分数高于阈值的检测框来获得身份的。检测分数低的物体,例如被遮挡的物体,被简单地忽略,这带来了不可忽视的真正物体丢失和碎片化的轨迹。为了解决这些问题,我们提出了一种简单、有效和通用的关联方法,通过关联几乎每个检测框而不是只关联高分的检测框来进行跟踪。对于低分检测框,我们利用它们与tracklets的相似性来恢复真实对象并过滤掉背景检测。当应用于9个不同的最先进的跟踪器时,我们的方法在IDF1分数上实现了从1到10分的持续改进。为了提出MOT的state-of-theart性能,我们设计了一个简单而强大的跟踪器,命名为ByteTrack。我们首次在单 V100 GPU上以30 FPS运行速度在 MOT17 的测试集上实现了 80.3 MOTA、77.3 IDF1和 63.1 HOTA。ByteTrack 还在MOT20、HiEve和BDD100K跟踪基准上实现了最先进的性能。源代码、带有部署版本的预训练模型和应用于其他跟踪器的教程在 https://github.com/ifzhang/ByteTrack发布。

640.png

Figure 1. 不同跟踪器在MOT17测试集上的MOTA-IDF1-FPS比较。横轴为FPS,纵轴为MOTA,圆半径为IDF1。我们的ByteTrack在30FPS的基础上,在MOT17测试集上达到了80.3 MOTA和77.3 IDF1,超越了以往所有的跟踪器。详细情况见表4。


简介:


基于检测的跟踪是目前最有效的多目标跟踪方法。但是由于视频中复杂的场景,检测器并不能完美的预测。目前最先进的MOT方法需要权衡检测框中的真阳性/假阳性来消除低置信度检测框。但是直接去除这些低分框真的合理吗?我们的回答是否定的,低置信度检测框有时指示对象的存在,例如被遮挡的物体。过滤掉这些对象会导致MOT出现不可逆转的错误,并带来不可忽略的缺失检测和碎片化轨迹。标意味着对于MOT造成不可逆误差、漏检和碎片轨迹。


图2(a)和(b)显示了这个问题。在第t1帧中,我们初始化了三个不同的tracklet,因为它们的分数都高于0.5。但是,在第t2帧和第t3帧发生遮挡时,红色tracklet对应的检测分数变低,即从0.8到0.4,然后从0.4到0.1。这些检测框被阈值机制消除,红色轨迹相应地消失。然而,如果我们将每个检测框都考虑在内,则会立即引入更多误报,例如,图2(a)的帧t3中最右边的框。据我们所知,MOT中很少有方法 能够处理这种检测困境。

640.png

Figure 2. 关联每个检测框的方法示例。(a)显示所有检测框及其分数。(b)显示了通过先前方法获得的轨迹,这些方法关联了分数高于阈值的检测框,即0.5。相同的框颜色代表相同的身份。©显示了通过我们的方法获得的轨迹。虚线框表示使用卡尔曼滤波器预测的之前轨迹框。两个低分检测框基于大IoU与之前的tracklets正确匹配。


在本文中,我们发现tracklets 的相似性为区分低分检测框中的对象和背景提供了强有力的线索。如图2©所示,两个低分检测框通过运动模型的预测框与轨迹匹配,从而正确地恢复了目标。同时,由于没有匹配的tracklet,背景框被移除。


为了在匹配过程中充分利用从高分到低分的检测框,我们提出了一种简单有效的关联方法BYTE,将每个检测框命名为tracklet的一个基本单元,在计算机程序中作为字节,我们的跟踪方法对每个详细的检测框进行估值。我们首先根据运动相似性或外观相似性将高分检测框与轨迹匹配。同样,我们采用卡尔曼滤波器来预测轨迹在新帧中的位置。相似度可以通过预测框和检测框的IoU或Re-ID特征距离来计算。图2(b)正是第一次匹配后的结果。然后,我们使用相同的运动相似性在未匹配的轨迹(即红色框中的轨迹)和低分数检测框之间执行第二次匹配。图 2©显示了第二次匹配后的结果。检测分数低的被遮挡人与前一个轨迹正确匹配,并且背景(在图像的右侧)被移除。


作为目标检测与关联的综合课题,MOT的理想解决方案绝不是检测器和以下关联。此外,精心设计它们的连接区域也很重要。BYTE的创新在于检测和关联的交界处,低分检测框是提升两者的桥梁。受益于这种集成创新,当 BYTE 应用于9个不同的最先进的跟踪器时,包括基于Re-ID的跟踪器,基于运动的跟踪器,基于链的跟踪器和基于注意力的跟踪器,几乎所有指标都取得了显着改进,包括MOTA、IDF1分数和ID切换。例如,我们将CenterTrack的MOTA从66.1 增加到67.4,IDF1从64.2增加到74.0,并将MOT17的半验证集上的ID从528减少到144。


为了推动MOT的最新性能,我们提出了一个简单而强大的跟踪器,名为ByteTrack。我们采用最近的高性能检测器YOLOX来获取检测框并将它们与我们提出的BYTE相关联。在MOT挑战中,ByteTrack在MOT17和MOT20中均排名第一,在MOT17的V100 GPU上以30 FPS的运行速度实现了80.3 MOTA、77.3 IDF1和63.1 HOTA,在更拥挤的MOT20上实现了77.8 MOTA、75.2 IDF1和61.3 HOTA。ByteTrack还在HiEve和BDD100K跟踪基准上实现了最先进的性能。我们希望ByteTrack的效率和简单性能够使其在社交计算等实际应用中具有吸引力。

相关文章
|
4月前
|
计算机视觉
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
33 0
|
4月前
|
机器学习/深度学习 算法 计算机视觉
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
【论文速递】CVPR2022-弱监督旋转不变的航空目标检测网络
|
4月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
4月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
227 0
|
4月前
|
测试技术 计算机视觉 异构计算
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
|
4月前
|
传感器 自动驾驶 测试技术
【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
【论文速递】CoRL2021 - DETR3D:通过 3D 到 2D 查询从多视图图像中检测 3D 对象
|
4月前
|
机器学习/深度学习 测试技术 决策智能
【论文速递】CVPR2022 - 全局跟踪Transformers
【论文速递】CVPR2022 - 全局跟踪Transformers
|
4月前
|
机器学习/深度学习 弹性计算 数据可视化
玩ST、肿瘤研究的来学习一下!16分Nature子刊的单细胞空间转录组+机器学习
Nature Communications 发表了一项关于空间转录组和机器学习在肿瘤研究中的应用。研究聚焦于HPV阴性口腔鳞状细胞癌,通过整合单细胞和空间转录组分析,揭示了肿瘤核心(TC)和前沿边缘(LE)的独特转录特征。TC和LE的基因表达模式与多种癌症的预后相关,其中LE基因标志关联不良预后,而TC则与较好预后相关。利用机器学习,研究人员建立了预测模型,识别出跨癌症类型的保守TC和LE特征。此外,他们还分析了RNA剪接动态,发现了潜在的治疗脆弱性。这项工作为肿瘤生物学和靶向治疗提供了新见解,并为药物开发提供了依据。
73 0
|
人工智能 自然语言处理 知识图谱
【论文速递】COLING 2022 - 带有事件论元相关性的事件因果关系抽取
事件因果关系识别(ECI)是事件因果关系理解的重要任务,其目的是检测两个给定文本事件之间是否存在因果关系。然而,ECI任务忽略了关键的事件结构和因果关系组件信息
112 0
|
4月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏