【论文原文】:Global Tracking Transformers
论文地址:https://arxiv.org/abs/2203.13250
代码:https://github.com/xingyizhou/GTR
博主关键词: 多目标跟踪,transformer,注意力,全局关联
推荐相关论文:
MOTR: End-to-End Multiple-Object Tracking with Transformer
摘要:
本文提出一种新的基于transformer的全局多目标跟踪体系结构。该网络以短时间的帧序列作为输入,并为所有object产生全局轨迹。其核心组件是global track transoformer,它对序列中所有帧的object进行操作。transformer对所有帧中的对象特征进行编码,并使用 trajectory queries将它们分组为轨迹。trajectory queries是来自单个帧的object特征,自然会产生独特的轨迹。所提出的global track transoformer不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能,有75.3 MOTA和59.1 HOTA。更重要的是,我们的框架无缝地集成到最先进的大型词汇量检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明,我们的框架持续改进了基于成对关联的基线,以显著的7.7跟踪mAP优于已发表的文章。
关键词 多目标跟踪,transformer,注意力,全局关联。
简介:
多目标跟踪旨在发现和跟踪视频流中的所有目标。它是移动机器人等应用领域的基本构建块,在这些应用领域中,一个拥有自主系统的智能体必须是适应存在其他移动智能体的动态环境。近年来,由于深度学习和目标检测的进步,基于检测的跟踪(tracking-by-detection)已经成为主要的跟踪范式[20,36]。tracking-by-detection 将跟踪简化为两个步骤:检测和关联。首先,目标检测器在视频流的每一帧中独立地检测潜在对象。接着,关联步骤将不同时间的检测结果联系起来。局部跟踪器[4,5,54,55,60,66]主要以贪心的方式考虑成对关联(图1a)。它们根据位置[5,68]和/或目标特征[55,66]维护每个轨迹的状态,并根据每个轨迹的最后可见状态将当前帧检测与之相关联。这种成对的关联是有效的,但缺乏一个明确的整体轨迹模型,有时会受到严重遮挡或强烈外观变化的影响。全局跟踪器[3,6,44,63,65]在成对关联上运行离线基于图的组合优化。它们可以解决不一致的分组检测,并且更健壮,但速度可能较慢且通常与目标检测器分离。
Fig. 1. Local trackers (top) vs. our global tracker (bottom). Local trackers associate objects frame-by-frame, optionally with a external track status memory (not show in the figure). Our global tracker take a short video clip as input, and associates objects across all frames using global object queries.
在这项工作中,我们展示了如何将全局跟踪(图1b)表示为深度网络(图2)中的几层。我们的网络直接输出轨迹,从而避开了配对关联和基于图的优化。我们表明,检测器[20, 36, 70]可以通过transformer层来增强和转化成变成联合检测器和跟踪器。我们的全局追踪转化器(GTR)对来自多个连续帧的检测进行编码,并使用轨迹查询(trajectory queries)将其归入轨迹。这些queries是来自单帧(例如,在线跟踪器中的当前帧)的检测特征,经过非极大值抑制,由GTR转化为轨迹。每个轨迹查询通过使用softmax分布从每个帧分配一个检测,生成一个全局轨迹。我们模型的输出是以这种方式产生的检测结果和它们在时间上的关联。在训练过程中,我们使用真实轨迹和它们的图像级边界框对我们的全局跟踪变换器的输出进行明确的监督。在推理过程中,我们以滑动窗口的方式运行GTR,时间窗口大小为32帧,并在线链接窗口之间的轨迹。并在线链接窗口之间的轨迹。该模型是在时间窗口内是端到端的可微分的。
我们的框架是由最近transformer模型[49]在计算机视觉的一般问题[14,25,47,67],特别是[8,53]的目标检测中的成功经验所激发的。查询和编码器特征之间的交叉注意结构挖掘了对象之间的相似性,并自然地适合于多目标跟踪中的关联目标。我们在一个时间窗口内对轨迹查询和物体特征进行交叉注意,并明确地监督它,以产生查询到检测的分配。每个分配直接对应于一个全局轨迹。与基于transformer的检测器[8, 30, 40, 53]将查询作为固定参数来学习不同,我们的查询来自现有的检测特征,并适应图像内容。此外,我们的transformer对检测到的对象,而不是原始像素进行操作[8]。这使我们能够充分利用开发良好的目标检测器[20,69]。
Fig. 2. Overview of our joint detection and tracking framework. An object detector first independently detects objects in all frames. Object features are concatenated and fed into the encoder of our global Tracking transformer (GTR). The GTR additionally takes trajectory queries as decoder input, and produces association scores between each query and object. The association matrix links objects for each query. During testing, the trajectory queries are object features in the last frame. The structure of the transformer is shown in Figure 3.
我们的框架是端到端可训练的,并且很容易与最先进的对象检测器集成。在具有挑战性的大规模TAO数据集上,我们的模型在测试集上达到20.1跟踪mAP,显著优于已发表的工作,达到12.4跟踪mAP [32]。在MOT17 [31]基准测试上,我们的模型实现了具有竞争力的75.3 MOTA和59.1 HOTA,优于大多数并发的基于transformer的跟踪器[30,61,64],与最先进的基于关联的跟踪器相当。