【论文速递】CVPR2022 - MeMOT: 带有记忆的多目标跟踪

简介: 【论文速递】CVPR2022 - MeMOT: 带有记忆的多目标跟踪

【论文原文】:MeMOT: Multi-Object Tracking with Memory

论文地址:https://arxiv.org/abs/2203.16761

博主关键词: 多目标跟踪,transformer,memory

推荐相关论文:

【论文速递】ECCV2022 - ByteTrack:通过关联每个检测盒来进行多对象跟踪

- https://blog.csdn.net/Never_moresf/article/details/128719534

【论文速递】CVPR2022 - 全局跟踪Transformers

-https://blog.csdn.net/Never_moresf/article/details/128704693


摘要:


我们提出了一种在线跟踪算法,该算法在一个通用框架下执行目标检测和数据关联,能够在长时间跨度后连接对象。这是通过保留一个大的时空内存来存储被跟踪对象的 identity embeddings,并根据需要自适应地引用和聚合内存中的有用信息。我们的模型被称为MeMOT,由三个主要模块组成,它们都是基于transformer的:1)假设生成(Hypothesis Generation),在当前视频帧中产生目标proposals;2)记忆编码(Memory Encoding),从内存中提取每个被跟踪对象的核心信息;3)内存解码(Memory Decoding),同时解决多目标跟踪的目标检测和数据关联任务。在广泛采用的MOT benchmark数据集上进行评估时,MeMOT展示了非常有竞争力的性能。

关键词  多目标跟踪,transformer,memory


简介:


在线多目标跟踪(MOT)[3,13,57,70]的目标是定位一组目标(例如,行人),同时跟踪它们随时间变化的轨迹,使同一个的目标在整个输入视频流中具有相同的id。早期的方法大多通过两个独立的阶段来解决这个问题:1)目标检测阶段: 在单独帧[14,17,28,42,72]中检测目标实例;2)数据关联阶段,通过对跟踪目标的状态变化建模,解决跟踪目标与检测结果之间的匹配问题,将检测到的目标实例跨时间[5,70]关联。尽管最近的研究[34,69]表明,将这两个阶段结合起来可能是有益的,但这种结合通常会导致关联模块在建模对象随时间变化时的过度简化

在本文中,我们提出了一种基于transformer的跟踪模型,称为MeMOT,该模型在在线的公共框架下执行目标检测和关联。MeMOT的关键设计是建立一个大型时空存储器,存储被跟踪目标的过去观测数据。通过引用相关信息,在每一时间步中对memory进行主动编码,以使得目标的状态更准确地逼近关联任务。从时空存储器中提取的跟踪对象的丰富表示使我们能够在一个统一的解码模块中解决目标检测和关联任务。它直接输出已被跟踪并在最新帧中重新出现的目标,以及第一次看到的新目标实例。MeMOT的思想如图1所示。

640.png

Fig. 1.Illustration of the idea of MeMOT. A spatio-temporal memory stores a long range states of all tracked objects and is updated over time. Each row in the memory buffer represents an active tracklet. The “person crops” indicate that their the history states are preserved in the memory, and the blank box indicates this person does not appear in the frame at that time, occluded or not detected. The tracking plots show that MeMOT can maintain active tracks (yellow and blue boxes), link reappearing tracks after occlusion (red box), and generate new objects (green box).


在每个时间步长中,MeMOT运行以下三个主要组件:1)假设生成模块,该模块从输入图像特征图中生成proposals,作为一组嵌入向量;2))记忆编码模块,该模块将与每个被跟踪对象对应的时空记忆编码为称为跟踪嵌入的向量;3)内存解码,输入proposal和跟踪嵌入,同时解决多目标跟踪的目标检测和数据关联任务。假设生成模块由一个基于transformer的编解码器网络[6,73]实现。它生成一组嵌入向量,称为proposal embedding,每个向量表示一个假设的目标实例。记忆编码模块首先将每个目标的时空记忆分为短期记忆和长期记忆,并通过交叉注意模块[50]将它们聚合成一个嵌入向量。然后,两个向量通过自注意机制相互作用,在此时间步生成被跟踪目标的轨迹嵌入。proposal和轨道嵌入,与原始图像特征一起,然后送到内存解码模块。对于每个轨迹嵌入,它生成在这一帧中被跟踪对象的位置和可见性。对于每个proposal嵌入,它预测这个假设的对象实例是描绘一个新对象、一个跟踪对象,还是仅仅是一个背景区域。MeMOT模型的示意图如图2所示。整个模型可以在带有对象包围框和身份标注的视频数据集上进行端到端训练。在推理过程中,我们在每个时间步的一次模型推理中获得跟踪输出,无需任何额外的优化[9,41]或后处理[3,48,70]。

640.png

Fig. 2. Visualization of MeMOT, which runs three main components: 1) a hypothesis generation module ΘH that produces object proposals for the current video frame, 2) a memory encoding module ΘE that retrieves core information for each tracked objects, and 3) a memory decoding module ΘD that solves the object detection and data association tasks simultaneously. MeMOT maintains a memory buffer to store long-range states of tracked objects, together with an efficient encoding-decoding process that retrieves useful information for linking objects after a long time span. Each hypothetical object is predicted as a new object, a tracked object, or a background region.


我们评估了MeMOT在MOT Challenge[10,35] benchmark上的行人跟踪结果。实验结果表明,MeMOT在所有使用网络内关联算法中达到了最先进的性能,并且与使用网络后关联过程的算法相比具有竞争力。具体来说,MeMOT在目标检测和数据关联方面都优于其他基于transformer的方法。广泛的消融研究进一步验证了MeMOT的设计和有效性。

相关文章
|
数据安全/隐私保护
经典权限系统设计(五张表)
经典权限系统设计(五张表)
|
数据采集 PyTorch 算法框架/工具
PyTorch基础之数据模块Dataset、DataLoader用法详解(附源码)
PyTorch基础之数据模块Dataset、DataLoader用法详解(附源码)
2550 0
|
弹性计算 网络协议 Linux
最佳实践:阿里云VPC、ECS支持IPv6啦!
12月6日,阿里云宣布为企业提供全栈IPv6解决方案。 阿里云专有网络VPC、云服务器ECS,作为阿里云的核心产品,也于2018年11月底上线双栈VPC、双栈ECS,目前正在对外公测中。 那么如何在阿里云拥有IPv4/IPv6双栈VPC、双栈ECS呢,请看下文详解。
20246 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
自注意力机制在Transformer中备受瞩目,看似‘主角’,为何FFN却在背后默默扮演关键角色?
本文三桥君深入解析Transformer模型中的前馈全连接层(FFN)机制,揭示其通过两层线性变换和ReLU激活增强模型表达能力的关键作用。文章从输入准备、结构原理到计算过程进行详细阐述,并提供PyTorch实现代码。同时探讨了FFN的优化方向及与自注意力机制的协同效应,为AI从业者提供实践建议。AI专家三桥君结合图文并茂的讲解方式,帮助读者掌握这一影响Transformer性能的核心组件。
1356 0
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
11月前
|
机器学习/深度学习 敏捷开发 人工智能
2025产品需求管理最佳实践:从流程优化到工具选型 详解项目需求管理实战
本文深入探讨产品需求管理的核心概念与全流程优化方法,涵盖需求采集、分析、优先级排序及落地实现等关键环节。通过多维度需求采集、科学评估与敏捷迭代,结合团队角色分工,确保需求价值最大化。同时对比评测板栗看板、Jira、Axosoft等管理工具,并展望AI赋能下的智能生成、预测性分析与自动化流程新趋势,助力企业精准把握市场动态,打造爆款产品。掌握需求管理精髓,是产品成功的关键驱动力。
|
10月前
|
缓存 自然语言处理 算法
淘宝API智能客服机器人实现响应速度突破性提升
淘宝升级智能客服系统,通过算法优化与分布式架构重构,实现响应速度提升80%,日均处理咨询超2亿次。核心技术包括微服务架构、语义理解引擎与多轮对话优化,支撑92%机器人承接率,助力用户体验与运营效率双提升。
1050 0
|
人工智能
无影AI云电脑上新满血版DeepSeek R1!附免费使用教程
无影AI云电脑上新满血版DeepSeek R1!附免费使用教程
|
文字识别 程序员 UED
Python + 腾讯云,多页PDF发票识别一键搞定!
程序员晚枫团队推出了基于Python和腾讯云的多页PDF发票识别功能!通过一行代码即可实现整本PDF发票的高效识别,并直接导出为Excel文件,极大提升工作效率。此次更新修复了仅识别第一页的bug,支持多页PDF完整识别。未来还将拓展更多票据类型、优化速度并加强平台合作。欢迎用户体验并提出建议,共同推动开源项目poocr的成长与进化!
540 7