DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA

本文涉及的产品
票证核验,票证核验 50次/账号
个人证照识别,个人证照识别 200次/月
小语种识别,小语种识别 200次/月
简介: DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA

随着强大的目标检测器的兴起,基于运动的多目标跟踪(MOT)关联最近重新获得了关注。尽管如此,除了缺乏对特征退化的鲁棒性的简单启发式模型之外,很少有工作将外观线索纳入其中。

在本文中提出了一种利用对象外观的新方法,以将外观匹配自适应地集成到现有的高性能基于运动的方法中。基于基于纯运动的方法OC-SORT,分别以63.9和64.9 HOTA在MOT20和MOT17上获得第一名和第二名。也在具有挑战性的DanceTrack基准测试上实现了61.3 HOTA,这是一种新的sota,即使与设计更严格的方法相比也是如此。

代码:https://github.com/GerardMaggiolino/Deep-OC-SORT。


1、简介


随着先进的目标检测器和基于运动的关联算法的成功,除了简单的移动平均模型之外,视觉外观与基于运动的匹配的有效集成仍然相对不足。

在这项工作中从最近的基于纯运动的跟踪算法OC-SORT开始,通过将视觉外观与新方法相结合来提高跟踪鲁棒性。强嵌入模型的边界框级视觉特征仍然包含由于遮挡、运动模糊或类似外观的对象而产生的显著噪声。

本文提出了一种基于动态和自适应启发式的模型,以将视觉外观与基于运动的线索结合在单个阶段中进行对象关联。如果没有细粒度语义(例如实例分割),可以提高使用对象之间的视觉比较进行关联的准确性。除了更有效地将外观线索添加到基于运动的对象关联之外,还集成了相机运动补偿,通过补充以对象为中心的运动模型来提高性能。

本文的方法为未来的工作提供了一个新的、有效的基线模型。它在MOT17、MOT20和DanceTrack基准的所有已发表作品中创下了最新水平。由于重点是将视觉外观引入OC-SORT,因此将方法命名为Deep OC-SORT。作者注意到将视觉外观与基于运动的方法相结合的自适应方式是新设计的,而不是对DeepSORT在SORT上所做的直接调整。


2、相关工作


2.1、基于运动的多对象跟踪

考虑到目标检测器的快速改进,许多现代端到端的MOT模型仍然比不上经典的基于运动模型的跟踪算法。卡尔曼滤波器是最著名的检测跟踪方法的基础。在这项工作中,SORT使用线性运动假设来关联IoU的轨迹。ByteTrack最近被提出通过在关联中使用低置信候选来修复缺失的预测,通过平衡检测质量和跟踪置信度来实现良好的性能。最近,OC-SORT提高了非线性运动场景中跟踪的鲁棒性,并通过更严重地直接依赖检测来减轻对象遮挡或消失的影响。

2.2、基于外观的多对象跟踪

视觉识别是随着时间推移关联目标的直接提示。DeepSORT是最早使用深度视觉特征进行对象关联的方法之一。从那时起,更多的方法通过以端到端的方式训练辨别性外观模型,在整合视觉信息方面有所改进。

最近,Transformer的兴起开始了另一波使用外观进行多目标跟踪的浪潮,其中目标关联的任务被建模为查询匹配问题。然而,当感兴趣的目标具有相似的外观或被遮挡时,观察到基于外观的方法不太有效。

尽管具有更复杂的架构,但这些方法无法胜过利用强检测器的简单运动关联算法。最近一些尝试将外观提示添加到基于运动的方法中的尝试使用简单的移动平均值进行外观嵌入更新,取得了适度的成功。


3、本文方法


在本节中将介绍深度OCSORT的3个模块:相机运动补偿(CMC)、动态外观(DA)和自适应加权(AW)。

算法管道如图1所示:

image.png

3.1、Preliminary: OC-SORT

本文的工作基于最近的基于卡尔曼滤波器的跟踪算法OC-SORT,它是SORT的扩展。SORT依赖于目标跟踪的线性运动假设,并利用卡尔曼滤波器将来自目标检测器的预测与IoU的运动模型的位置估计相关联。当视频帧速率高时,线性运动假设对于相邻视频帧上的目标位移是有效的。

然而,当跟踪目标在遮挡下消失时,卡尔曼滤波器期间的缺失测量会随着卡尔曼滤波器参数的时间二次更新复合误差。

OC-SORT提出了3个模块来帮助解决基于运动模型的错误:OCM(观测中心动量)、OCR(观测中心恢复)和OOS(观测中心在线平滑)。本文继承了OC-SORT的整个流水线,包括从成本矩阵关联匹配的匈牙利算法。

3.2、Camera Motion Compensation (CMC)

由于OC-SORT高度依赖于检测质量,作者引入CMC来更精确地定位运动场景中的逐帧目标。给定缩放旋转矩阵和平移,其中和,将它们分别应用于OC-SORT的3个分量:

1、OOS + CMC

卡尔曼滤波器从线性插值路径更新,从最后一次已知测量开始。最后一个已知的测量由组成,前两个条目作为边界框的中心。边界框的中心类似地由,从而从相机校正的测量开始对路径进行插值。

2、OCM + CMC

为边界框的左上角点和右下角点。OCM使用最后的个边界框来计算边界框角速度。在每个时间步,应用变换到边界框。OCM期间,这从变为时间步长。

3、OCR + CMC

对于OCR中最后看到的边界框位置,在每个时间步,应用以调整其在CMC下的位置。

对于OC-SORT,卡尔曼状态是。应用CMC来修正卡尔曼状态:

image.png

作者注意到可以将CMC变换的尺度应用于面积a,或近似旋转来改变高宽比s。然而,与中心点相比,被旋转目标的包围边界框并不是线性近似的,而是需要一个被包围目标的细粒度掩模。

虽然近似适合于OCM和OCR,但卡尔曼滤波器在经验上对近似变化更为敏感。本文在卡尔曼外推步骤之前应用这个CMC更新,使预测阶段来自CMC校正的状态。

3.3、动态外观

在之前的工作中,用于描述轨迹的深度视觉嵌入是由深度检测嵌入逐帧的指数移动平均(EMA)给出的。这需要一个加权因子α来调整来自历史和当前时间步长的视觉嵌入的比例。

作者建议根据检测器的置信度,在每帧的基础上修改EMA的α。这种灵活的α允许只在高质量的情况下有选择地将外观信息合并到轨道的模型中。

作者使用低检测器置信度作为代理来识别由于遮挡或模糊造成的图像退化,允许拒绝损坏的嵌入。让et是轨迹的外观嵌入在时间t。标准EMA为

image.png

其中是被添加到模型中的匹配检测的外观。建议定义为

image.png

的变化的代替,其中是检测器置信度,是用于过滤噪声检测的检测置信度阈值。

设置固定值α。检测器预测提供,控制动态操作。当σ时,有α,因此新的外观嵌入被完全忽略。相比之下,意味着α=α,并且被最大程度地添加到tracklet视觉嵌入的更新中。该值随检测器置信度线性缩放。生成动态外观的操作不会为标准EMA引入新的超参数。

3.4、自适应加权

自适应加权根据外观嵌入的区别性增加了外观特征的权重。使用轨道和框嵌入的标准余弦相似度可以得到一个外观成本矩阵,,其中和分别是轨道和检测的数量。表示在第行和第列相交处的条目。这通常与IoU成本矩阵Ic结合为,在−C上具有最小的线性和分配成本最小。

建议基于歧视性提高个体跟踪框得分,在全局中添加$w_b(m,n)。

让表示轨迹,表示检测。当只对一个框(包含在行中)有很高的相似度得分时,我们将比行增加外观权重。如果一个检测仅与一个轨道有区别地关联,则对的列应用相同的操作。使用来衡量框轨对的区别性,它被定义为一行或一列的最高值和第二高值之间的差异:

image.png

其中,是一个超参数,以限制在第一和第二最佳匹配之间的外观成本有很大的差异。然后,推导出的加权因子为

image.png

其结果是最终的成本矩阵为

image.png

选择仅基于第一和第二最高得分来衡量区分性,而不是像KL散度这样的概率分布度量,因为得分较低的比赛之间的值分布是不相关的。真正的正面外观匹配是指一个高分与下一个最佳匹配之间的距离较大。


4、实验


4.1、基准测试结果

4.2、消融研究


5、参考


[1].DEEP OC-SORT: MULTI-PEDESTRIAN TRACKING BY ADAPTIVE RE-IDENTIFICATION.

相关文章
|
机器学习/深度学习 算法 计算机视觉
SORT新方法AM-SORT | 超越DeepSORT/CO-SORT/CenterTrack等方法,成为跟踪榜首
SORT新方法AM-SORT | 超越DeepSORT/CO-SORT/CenterTrack等方法,成为跟踪榜首
595 0
|
机器学习/深度学习 监控 算法
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
|
9月前
|
机器学习/深度学习 资源调度 算法
YOLOv11改进策略【损失函数篇】| 引入Soft-NMS,提升密集遮挡场景检测精度,包括GIoU-NMS、DIoU-NMS、CIoU-NMS、SIoU-NMS、 EIou-NMS
YOLOv11改进策略【损失函数篇】| 引入Soft-NMS,提升密集遮挡场景检测精度,包括GIoU-NMS、DIoU-NMS、CIoU-NMS、SIoU-NMS、 EIou-NMS
3627 6
|
9月前
|
机器学习/深度学习 编解码 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
574 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
|
传感器 自动驾驶 安全
未来出行的智能革命:自动驾驶技术的现状与前景
在科技迅猛发展的今天,自动驾驶技术正逐步从科幻走进现实。本文将深入探讨自动驾驶的技术原理、当前发展现状以及未来的应用前景。我们将从感知、决策和执行三个核心层面剖析自动驾驶系统的工作机制,并讨论其在不同场景中的应用。同时,通过分析技术发展面临的挑战和瓶颈,我们展望了自动驾驶技术的未来图景,并思考其可能对社会、经济和法律等方面带来的深远影响。
1203 3
|
传感器 人工智能 算法
AI计算机视觉笔记二十七:YOLOV8实现目标追踪
本文介绍了使用YOLOv8实现人员检测与追踪的方法。通过为每个人员分配唯一ID,实现持续追踪,并可统计人数,适用于小区或办公楼出入管理。首先解释了目标检测与追踪的区别,接着详细描述了使用匈牙利算法和卡尔曼滤波实现目标关联的过程。文章提供了基于IOU实现追踪的具体步骤,包括环境搭建、模型加载及追踪逻辑实现。通过示例代码展示了如何使用YOLOv8进行实时视频处理,并实现人员追踪功能。测试结果显示,该方法在实际场景中具有较好的应用潜力。
1904 4
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
1055 1
|
机器学习/深度学习 编解码 测试技术
【YOLOv8改进-SPPF】 Focal Modulation :使用焦点调制模块替代SPPF
YOLOv8专栏介绍了FocalNets,一种取代自注意力的新型模块,提升模型在图像分类、检测和分割任务中的性能。Focal Modulation包括局部聚焦、全局调制和多尺度处理,通过融合CNN和自注意力优点。代码展示了FocalModulation模块的实现。论文和代码已开源。在多个基准测试中,FocalNets超越了Swin等先进模型。
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
机器学习/深度学习 监控 算法
yolov8_track追踪加分割(yolo目标检测+追踪+分割)
yolov8_track追踪加分割(yolo目标检测+追踪+分割)