【论文速递】CVPR2022 - 全局跟踪Transformers

简介: 【论文速递】CVPR2022 - 全局跟踪Transformers

【论文原文】:Global Tracking Transformers

论文地址:https://arxiv.org/abs/2203.13250

代码:https://github.com/xingyizhou/GTR

博主关键词: 多目标跟踪,transformer,注意力,全局关联

推荐相关论文:

MOTR: End-to-End Multiple-Object Tracking with Transformer


摘要:


本文提出一种新的基于transformer的全局多目标跟踪体系结构。该网络以短时间的帧序列作为输入,并为所有object产生全局轨迹。其核心组件是global track transoformer,它对序列中所有帧的object进行操作。transformer对所有帧中的对象特征进行编码,并使用 trajectory queries将它们分组为轨迹。trajectory queries是来自单个帧的object特征,自然会产生独特的轨迹。所提出的global track transoformer不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能,有75.3 MOTA和59.1 HOTA。更重要的是,我们的框架无缝地集成到最先进的大型词汇量检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明,我们的框架持续改进了基于成对关联的基线,以显著的7.7跟踪mAP优于已发表的文章。

关键词 多目标跟踪,transformer,注意力,全局关联。


简介:


多目标跟踪旨在发现和跟踪视频流中的所有目标。它是移动机器人等应用领域的基本构建块,在这些应用领域中,一个拥有自主系统的智能体必须是适应存在其他移动智能体的动态环境。近年来,由于深度学习和目标检测的进步,基于检测的跟踪(tracking-by-detection)已经成为主要的跟踪范式[20,36]。tracking-by-detection 将跟踪简化为两个步骤:检测和关联。首先,目标检测器在视频流的每一帧中独立地检测潜在对象。接着,关联步骤将不同时间的检测结果联系起来。局部跟踪器[4,5,54,55,60,66]主要以贪心的方式考虑成对关联(图1a)。它们根据位置[5,68]和/或目标特征[55,66]维护每个轨迹的状态,并根据每个轨迹的最后可见状态将当前帧检测与之相关联。这种成对的关联是有效的,但缺乏一个明确的整体轨迹模型,有时会受到严重遮挡或强烈外观变化的影响。全局跟踪器[3,6,44,63,65]在成对关联上运行离线基于图的组合优化。它们可以解决不一致的分组检测,并且更健壮,但速度可能较慢且通常与目标检测器分离。

640.png

Fig. 1. Local trackers (top) vs. our global tracker (bottom). Local trackers associate objects frame-by-frame, optionally with a external track status memory (not show in the figure). Our global tracker take a short video clip as input, and associates objects across all frames using global object queries.


在这项工作中,我们展示了如何将全局跟踪(图1b)表示为深度网络(图2)中的几层。我们的网络直接输出轨迹,从而避开了配对关联和基于图的优化。我们表明,检测器[20, 36, 70]可以通过transformer层来增强和转化成变成联合检测器和跟踪器。我们的全局追踪转化器(GTR)对来自多个连续帧的检测进行编码,并使用轨迹查询(trajectory queries)将其归入轨迹。这些queries是来自单帧(例如,在线跟踪器中的当前帧)的检测特征,经过非极大值抑制,由GTR转化为轨迹。每个轨迹查询通过使用softmax分布从每个帧分配一个检测,生成一个全局轨迹。我们模型的输出是以这种方式产生的检测结果和它们在时间上的关联。在训练过程中,我们使用真实轨迹和它们的图像级边界框对我们的全局跟踪变换器的输出进行明确的监督。在推理过程中,我们以滑动窗口的方式运行GTR,时间窗口大小为32帧,并在线链接窗口之间的轨迹。并在线链接窗口之间的轨迹。该模型是在时间窗口内是端到端的可微分的。

我们的框架是由最近transformer模型[49]在计算机视觉的一般问题[14,25,47,67],特别是[8,53]的目标检测中的成功经验所激发的。查询和编码器特征之间的交叉注意结构挖掘了对象之间的相似性,并自然地适合于多目标跟踪中的关联目标。我们在一个时间窗口内对轨迹查询和物体特征进行交叉注意,并明确地监督它,以产生查询到检测的分配。每个分配直接对应于一个全局轨迹。与基于transformer的检测器[8, 30, 40, 53]将查询作为固定参数来学习不同,我们的查询来自现有的检测特征,并适应图像内容。此外,我们的transformer对检测到的对象,而不是原始像素进行操作[8]。这使我们能够充分利用开发良好的目标检测器[20,69]。

640.png

Fig. 2. Overview of our joint detection and tracking framework. An object detector first independently detects objects in all frames. Object features are concatenated and fed into the encoder of our global Tracking transformer (GTR). The GTR additionally takes trajectory queries as decoder input, and produces association scores between each query and object. The association matrix links objects for each query. During testing, the trajectory queries are object features in the last frame. The structure of the transformer is shown in Figure 3.


我们的框架是端到端可训练的,并且很容易与最先进的对象检测器集成。在具有挑战性的大规模TAO数据集上,我们的模型在测试集上达到20.1跟踪mAP,显著优于已发表的工作,达到12.4跟踪mAP [32]。在MOT17 [31]基准测试上,我们的模型实现了具有竞争力的75.3 MOTA和59.1 HOTA,优于大多数并发的基于transformer的跟踪器[30,61,64],与最先进的基于关联的跟踪器相当。

相关文章
|
7月前
|
算法 测试技术 vr&ar
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器
|
7月前
|
测试技术 计算机视觉 异构计算
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪
|
7月前
|
算法 知识图谱
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
【论文速递】NAACL2022-DEGREE: 一种基于生成的数据高效事件抽取模型
|
7月前
|
计算机视觉
【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏
【论文速递】CVPR2022 - 基于可重复使用的教师分类器的知识蒸馏
|
数据采集 机器学习/深度学习 算法
【论文速递】EMNLP 2020 - 将事件抽取作为机器阅读理解任务
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。以前的EE方法通常将其建模为分类任务
153 0
|
7月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
|
7月前
|
机器学习/深度学习 算法 计算机视觉
YOLOv8改进之C2f模块融合CVPR2023 SCConv
卷积在各种计算机视觉任务中表现出色,但是由于卷积层提取冗余特征,其计算资源需求巨大。虽然过去用于改善网络效率的各种模型压缩策略和网络设计,包括网络剪枝、权重量化、低秩分解和知识蒸馏等。然而,这些方法都被视为后处理步骤,因此它们的性能通常受到给定初始模型的上限约束。而网络设计另辟蹊径,试图减少密集模型参数中的固有冗余,进一步开发轻量级网络模型。
858 0
|
7月前
|
存储 算法 计算机视觉
【论文速递】CVPR2022 - MeMOT: 带有记忆的多目标跟踪
【论文速递】CVPR2022 - MeMOT: 带有记忆的多目标跟踪
|
机器学习/深度学习 自然语言处理 Java
【论文速递】ACL 2021-CLEVE: 事件抽取的对比预训练
事件抽取(EE)通过微调从预训练的语言模型(PLMs)中受益匪浅。然而,现有的预训练方法没有涉及事件特征的建模,导致所开发的EE模型不能充分利用大规模无监督数据。
134 0
|
人工智能
【论文速递】COLING 2022 - OneEE: 一种用于重叠和嵌套事件抽取的单阶段框架
事件抽取(EE)是信息抽取的基本任务,旨在从非结构化文本中抽取结构化事件信息。大多数先前的工作集中于抽取平面事件,而忽略了重叠或嵌套的事件。
166 0