【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器

简介: 【论文速递】CVPR2022 : 用于目标跟踪的统一transformer跟踪器

【论文原文】:Unified Transformer Tracker for Object Tracking

论文地址:https://arxiv.org/pdf/2203.15175v1.pdf

博主关键词: 多目标跟踪,transformer, correlation,Siamese

推荐相关论文:

【论文速递】CVPR2022 - 全局跟踪Transformers
-https://blog.csdn.net/Never_moresf/article/details/128704693
【论文速递】CVPR2022 - MeMOT: 带有记忆得到多目标跟踪
-https://blog.csdn.net/Never_moresf/article/details/128735708


摘要:


目标跟踪作为计算机视觉中的一个重要领域,已经形成了两个独立的场景,分别研究单对象跟踪(SOT)和多对象跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象的不同,目前的一种跟踪场景的方法不容易适应另一种跟踪场景。虽然UniTrack [45]证明了可以使用具有多个头部的共享外观模型来处理单个跟踪任务,但它没有利用大规模跟踪数据集进行训练,并且在单目标跟踪上表现较差。在这项工作中,我们提出了统一transformer跟踪器(UTT),以解决不同场景下的跟踪问题。我们的UTT开发了一个跟踪transformer来在SOT和MOT中跟踪目标,利用目标特征和跟踪帧特征之间的相关性来定位目标。我们证明了SOT和MOT任务都可以在这个框架内得到解决,并且该模型可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时进行端到端训练。在SOT和MOT数据集上训练了一个统一的模型,在几个基准测试上进行了广泛的实验。

关键词 多目标跟踪,transformer, correlation,Siamese


简介:


视觉目标跟踪是计算机视觉的基本任务之一,具有众多应用[10,25,40,55]。与明确定义的目标分类和检测问题[18,19,46,50]不同,目标跟踪因场景不同可以分为两种主要范式1)单目标跟踪(SOT)是在整个视频[13,25]中跟踪在第一帧中被标注的目标,类别任意;2)多目标跟踪(MOT)用于估计视频中目标的边界框和id,其中目标的类别是已知的,对象可能出现或消失[53,55]。目前跟踪的方法是通过在SOT或MOT的单个数据集上的训练模型来分别解决单个任务。

孪生架构在SOT中得到了广泛的应用,各种设计侧重于提高对象[10, 13, 25, 49]的判别性表示。对于MOT,检测跟踪是最流行的范式,在几个基准[2,37,55]上达到最高的跟踪性能。这个范式不适用于SOT,因为该模型将无法检测到SOT中不可见类别的目标。一些MOT方法[24,60]利用SOT [4]中的孪生跟踪器来预测跟踪帧中目标的位置,并将预测的框与检测框融合,以提高检测结果。然而,这些方法与MOT中的检测跟踪方法相比并不占优。尽管孪生追踪器已经应用于两种跟踪任务中,但这些工作都不能够以统一的范例解决两种跟踪任务。实际上,一个统一的跟踪系统在许多领域都具有重要意义。对于AR/VR应用程序,跟踪特定的或看不见的实例,如个人杯子,与SOT有关,而感知像人等一般类别的环境则与MOT有关。维护两个独立的跟踪系统是非常昂贵和低效的。统一跟踪系统可以根据需求轻松地切换跟踪模式,在现实部署中变得更加重要。

640.png

Fig. 1.Unified transformer tracker for both single object tracking (SOT) and multiple object tracking (MOT) task. The target box in SOT is specified in the first frame while all boxes in reference frames are from the detection model in MOT. We use one tracking model to predict target localization in tracking frames for both tasks.


UniTrack [45]首先尝试通过共享主干和融合多个跟踪头来同时处理SOT和MOT。然而,由于头部设计和不同任务中训练数据集的差异,未能利用大规模的跟踪数据集进行训练。如图1所示,SOT和MOT中的训练数据来自不同的来源。SOT中的数据集只提供一个视频中的单个目标的注释,而MOT数据集中的密集的对象注释可用的,尽管对象类别固定。因此,UniTrack [45]的跟踪能力有限,该模型在复杂的场景中无法跟踪对象。

在本文中,我们引入了一个统一的transformer跟踪器(UTT),用于解决这两个跟踪任务。对于在SOT中指定或在MOT中检测到的参考帧的跟踪目标,我们基于之前的定位得到了跟踪帧中的小特征图proposal。然后将目标特征与特征图proposal相关联,以更新目标表示并输出目标定位。这使得我们的UTT能够以相同的设计跟踪SOT和MOT中的对象。更新后的目标特征与新的搜索特征proposal进一步相关联,该proposal基于产生的目标定位进行裁剪。这个过程重复了多次,以细化跟踪目标的定位。为了利用两个任务中的训练样本,我们在每个任务中使用数据集训练网络。实验表明,我们的跟踪器在这两个任务上都能很好地学习。我们的主要贡献总结如下:

640.png

Fig. 2. Framework of our unified transformer tracker (UTT).


•我们提出了一种新的统一transformer跟踪器(UTT),可用于单目标和多目标跟踪。据我们所知,这是第一个在这两个任务上进行端到端训练的跟踪模型。

•我们开发了一种新型的、有效的跟踪transformer,通过目标特征和跟踪帧特征之间的相关性来定位目标。目标特性通过我们的transformer设计得到了很好的编码。

•为了验证统一的目标跟踪能力,我们在SOT和MOT基准测试上评估了我们的UTT。我们提出的方法不仅在LaSOT[16]、TrackingNet[32]和GOT-10k [22]上取得了与现有算法相当的性能,而且在MOT16 [31]上也取得了与最先进算法相当的性能。

相关文章
|
SQL 机器学习/深度学习 分布式计算
Python之pyspark:pyspark的简介、安装、使用方法之详细攻略
Python之pyspark:pyspark的简介、安装、使用方法之详细攻略
Python之pyspark:pyspark的简介、安装、使用方法之详细攻略
|
11月前
|
供应链 前端开发 数据库
代购系统的开发与应用
在全球化背景下,代购系统作为连接消费者与全球商品的桥梁,通过专业代购人员或机构,解决关税、语言等障碍,为消费者提供安全可靠的购物平台。该系统涵盖前端界面、后端服务、数据库及支付接口等核心组件,实现商品展示、订单管理、库存管理和支付物流等功能,提升用户体验,促进跨境电商和个人代购业务的发展。面对数据安全、跨境支付等挑战,代购系统正逐步优化,未来将在全球购物领域发挥更大作用。
236 2
解决异常 java.net.URISyntaxException: Illegal character in query at index
解决异常 java.net.URISyntaxException: Illegal character in query at index
1561 0
|
11月前
|
SQL 数据挖掘 数据库
SQL查询每秒的数据:技巧、方法与性能优化
id="">SQL查询功能详解 SQL(Structured Query Language,结构化查询语言)是一种专门用于与数据库进行沟通和操作的语言
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器自主性的双刃剑
【7月更文挑战第18天】随着人工智能技术的飞速发展,机器的自主性日益增强。本文探讨了AI自主性带来的伦理挑战,包括责任归属问题、决策透明度与可解释性的需求,以及可能的社会影响。我们分析了在设计、部署和监管AI系统时必须考虑的关键伦理原则,并提出了一系列策略来确保技术进步不会损害人类价值。
406 4
|
机器学习/深度学习 存储 PyTorch
【深度学习】Pytorch面试题:什么是 PyTorch?PyTorch 的基本要素是什么?Conv1d、Conv2d 和 Conv3d 有什么区别?
关于PyTorch面试题的总结,包括PyTorch的定义、基本要素、张量概念、抽象级别、张量与矩阵的区别、不同损失函数的作用以及Conv1d、Conv2d和Conv3d的区别和反向传播的解释。
844 2
|
SQL 存储 调度
|
存储 算法 计算机视觉
【论文速递】CVPR2022 - MeMOT: 带有记忆的多目标跟踪
【论文速递】CVPR2022 - MeMOT: 带有记忆的多目标跟踪
|
机器学习/深度学习 人工智能 算法
opencv
OpenCV(Open Source Computer Vision Library,开源计算机视觉库)是一个开源的计算机视觉和机器学习软件库,它包含了许多图像处理、视频分析和计算机视觉方面的功能。OpenCV 的目的是为人工智能、
387 0
|
机器学习/深度学习 监控 算法
opencv
OpenCV是一个开源的计算机视觉库,可以用于图像处理、计算机视觉和机器学习等领域。OpenCV最初由Intel公司开发,后来在开放源代码许可证下发布,目前已经成为了计算机视觉领域最受欢迎的开源库之一。
557 0