DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA

本文涉及的产品
通用文字识别,通用文字识别 200次/月
教育场景识别,教育场景识别 200次/月
文档理解,免费额度 各100页
简介: DeepSORT再升级 | Deep OC-SORT引入目标外观信息,大幅领先SOTA

随着强大的目标检测器的兴起,基于运动的多目标跟踪(MOT)关联最近重新获得了关注。尽管如此,除了缺乏对特征退化的鲁棒性的简单启发式模型之外,很少有工作将外观线索纳入其中。

在本文中提出了一种利用对象外观的新方法,以将外观匹配自适应地集成到现有的高性能基于运动的方法中。基于基于纯运动的方法OC-SORT,分别以63.9和64.9 HOTA在MOT20和MOT17上获得第一名和第二名。也在具有挑战性的DanceTrack基准测试上实现了61.3 HOTA,这是一种新的sota,即使与设计更严格的方法相比也是如此。

代码:https://github.com/GerardMaggiolino/Deep-OC-SORT。


1、简介


随着先进的目标检测器和基于运动的关联算法的成功,除了简单的移动平均模型之外,视觉外观与基于运动的匹配的有效集成仍然相对不足。

在这项工作中从最近的基于纯运动的跟踪算法OC-SORT开始,通过将视觉外观与新方法相结合来提高跟踪鲁棒性。强嵌入模型的边界框级视觉特征仍然包含由于遮挡、运动模糊或类似外观的对象而产生的显著噪声。

本文提出了一种基于动态和自适应启发式的模型,以将视觉外观与基于运动的线索结合在单个阶段中进行对象关联。如果没有细粒度语义(例如实例分割),可以提高使用对象之间的视觉比较进行关联的准确性。除了更有效地将外观线索添加到基于运动的对象关联之外,还集成了相机运动补偿,通过补充以对象为中心的运动模型来提高性能。

本文的方法为未来的工作提供了一个新的、有效的基线模型。它在MOT17、MOT20和DanceTrack基准的所有已发表作品中创下了最新水平。由于重点是将视觉外观引入OC-SORT,因此将方法命名为Deep OC-SORT。作者注意到将视觉外观与基于运动的方法相结合的自适应方式是新设计的,而不是对DeepSORT在SORT上所做的直接调整。


2、相关工作


2.1、基于运动的多对象跟踪

考虑到目标检测器的快速改进,许多现代端到端的MOT模型仍然比不上经典的基于运动模型的跟踪算法。卡尔曼滤波器是最著名的检测跟踪方法的基础。在这项工作中,SORT使用线性运动假设来关联IoU的轨迹。ByteTrack最近被提出通过在关联中使用低置信候选来修复缺失的预测,通过平衡检测质量和跟踪置信度来实现良好的性能。最近,OC-SORT提高了非线性运动场景中跟踪的鲁棒性,并通过更严重地直接依赖检测来减轻对象遮挡或消失的影响。

2.2、基于外观的多对象跟踪

视觉识别是随着时间推移关联目标的直接提示。DeepSORT是最早使用深度视觉特征进行对象关联的方法之一。从那时起,更多的方法通过以端到端的方式训练辨别性外观模型,在整合视觉信息方面有所改进。

最近,Transformer的兴起开始了另一波使用外观进行多目标跟踪的浪潮,其中目标关联的任务被建模为查询匹配问题。然而,当感兴趣的目标具有相似的外观或被遮挡时,观察到基于外观的方法不太有效。

尽管具有更复杂的架构,但这些方法无法胜过利用强检测器的简单运动关联算法。最近一些尝试将外观提示添加到基于运动的方法中的尝试使用简单的移动平均值进行外观嵌入更新,取得了适度的成功。


3、本文方法


在本节中将介绍深度OCSORT的3个模块:相机运动补偿(CMC)、动态外观(DA)和自适应加权(AW)。

算法管道如图1所示:

image.png

3.1、Preliminary: OC-SORT

本文的工作基于最近的基于卡尔曼滤波器的跟踪算法OC-SORT,它是SORT的扩展。SORT依赖于目标跟踪的线性运动假设,并利用卡尔曼滤波器将来自目标检测器的预测与IoU的运动模型的位置估计相关联。当视频帧速率高时,线性运动假设对于相邻视频帧上的目标位移是有效的。

然而,当跟踪目标在遮挡下消失时,卡尔曼滤波器期间的缺失测量会随着卡尔曼滤波器参数的时间二次更新复合误差。

OC-SORT提出了3个模块来帮助解决基于运动模型的错误:OCM(观测中心动量)、OCR(观测中心恢复)和OOS(观测中心在线平滑)。本文继承了OC-SORT的整个流水线,包括从成本矩阵关联匹配的匈牙利算法。

3.2、Camera Motion Compensation (CMC)

由于OC-SORT高度依赖于检测质量,作者引入CMC来更精确地定位运动场景中的逐帧目标。给定缩放旋转矩阵和平移,其中和,将它们分别应用于OC-SORT的3个分量:

1、OOS + CMC

卡尔曼滤波器从线性插值路径更新,从最后一次已知测量开始。最后一个已知的测量由组成,前两个条目作为边界框的中心。边界框的中心类似地由,从而从相机校正的测量开始对路径进行插值。

2、OCM + CMC

为边界框的左上角点和右下角点。OCM使用最后的个边界框来计算边界框角速度。在每个时间步,应用变换到边界框。OCM期间,这从变为时间步长。

3、OCR + CMC

对于OCR中最后看到的边界框位置,在每个时间步,应用以调整其在CMC下的位置。

对于OC-SORT,卡尔曼状态是。应用CMC来修正卡尔曼状态:

image.png

作者注意到可以将CMC变换的尺度应用于面积a,或近似旋转来改变高宽比s。然而,与中心点相比,被旋转目标的包围边界框并不是线性近似的,而是需要一个被包围目标的细粒度掩模。

虽然近似适合于OCM和OCR,但卡尔曼滤波器在经验上对近似变化更为敏感。本文在卡尔曼外推步骤之前应用这个CMC更新,使预测阶段来自CMC校正的状态。

3.3、动态外观

在之前的工作中,用于描述轨迹的深度视觉嵌入是由深度检测嵌入逐帧的指数移动平均(EMA)给出的。这需要一个加权因子α来调整来自历史和当前时间步长的视觉嵌入的比例。

作者建议根据检测器的置信度,在每帧的基础上修改EMA的α。这种灵活的α允许只在高质量的情况下有选择地将外观信息合并到轨道的模型中。

作者使用低检测器置信度作为代理来识别由于遮挡或模糊造成的图像退化,允许拒绝损坏的嵌入。让et是轨迹的外观嵌入在时间t。标准EMA为

image.png

其中是被添加到模型中的匹配检测的外观。建议定义为

image.png

的变化的代替,其中是检测器置信度,是用于过滤噪声检测的检测置信度阈值。

设置固定值α。检测器预测提供,控制动态操作。当σ时,有α,因此新的外观嵌入被完全忽略。相比之下,意味着α=α,并且被最大程度地添加到tracklet视觉嵌入的更新中。该值随检测器置信度线性缩放。生成动态外观的操作不会为标准EMA引入新的超参数。

3.4、自适应加权

自适应加权根据外观嵌入的区别性增加了外观特征的权重。使用轨道和框嵌入的标准余弦相似度可以得到一个外观成本矩阵,,其中和分别是轨道和检测的数量。表示在第行和第列相交处的条目。这通常与IoU成本矩阵Ic结合为,在−C上具有最小的线性和分配成本最小。

建议基于歧视性提高个体跟踪框得分,在全局中添加$w_b(m,n)。

让表示轨迹,表示检测。当只对一个框(包含在行中)有很高的相似度得分时,我们将比行增加外观权重。如果一个检测仅与一个轨道有区别地关联,则对的列应用相同的操作。使用来衡量框轨对的区别性,它被定义为一行或一列的最高值和第二高值之间的差异:

image.png

其中,是一个超参数,以限制在第一和第二最佳匹配之间的外观成本有很大的差异。然后,推导出的加权因子为

image.png

其结果是最终的成本矩阵为

image.png

选择仅基于第一和第二最高得分来衡量区分性,而不是像KL散度这样的概率分布度量,因为得分较低的比赛之间的值分布是不相关的。真正的正面外观匹配是指一个高分与下一个最佳匹配之间的距离较大。


4、实验


4.1、基准测试结果

4.2、消融研究


5、参考


[1].DEEP OC-SORT: MULTI-PEDESTRIAN TRACKING BY ADAPTIVE RE-IDENTIFICATION.

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
197 0
|
1月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
228 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
3月前
|
语音技术 计算机视觉
CVPR 2024 Highlight :北航等发布时间特征维护:无需训练,极致压缩加速Diffusion
【6月更文挑战第28天】在CVPR 2024会议上,北航等研究团队提出了**时间特征维护**技术,针对Diffusion模型实现无需训练的高效压缩与加速。通过选择性保留关键时间特征,他们在保持生成质量的同时,实现了模型4bit极致压缩和超过2.38倍硬件加速,简化了复杂模型,提升了运行效率。这一创新方法有望改善Diffusion模型在实际应用中的资源需求,但其鲁棒性和泛化能力尚需更多验证。[论文链接](https://arxiv.org/pdf/2311.16503)
42 5
|
4月前
|
机器学习/深度学习 人工智能 算法
在对齐 AI 时,为什么在线方法总是优于离线方法?
【5月更文挑战第28天】在线AI对齐优于离线方法的原因在于其能更好地捕捉人类反馈的细微差别,通过多样化和相关的数据生成。尽管离线方法效率高、可利用大规模数据,但其数据集可能无法全面反映实际应用场景。研究强调在线采样的关键作用,但也指出离线对齐的效率和泛化优势。[查看论文](https://arxiv.org/abs/2405.08448)以获取详细信息。
57 2
|
4月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
387 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
4月前
|
机器学习/深度学习 存储 数据可视化
【AAAI2024】M2SD:通过特征空间预构建策略重塑小样本类增量学习
小样本类增量学习代表了机器学习领域中一个高度挑战性的议题,其核心目标在于能够在仅有限的数据支持下识别新类别,同时保留对已学习类别的认知,而无须重新训练整个模型。这一目标在模型需适应新类别的同时使用有限训练数据的情况下尤为艰巨。针对上述挑战,我们提出了一种创新性策略,称为多重混合自蒸馏。旨在为类增量学习阶段准备一个具有高度可扩展性和包容性的特征空间。
|
9月前
|
算法 API
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
|
自然语言处理 测试技术 开发者
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
161 0
|
机器学习/深度学习 编解码 自然语言处理
超简单高效方法 | 谷歌提出MOAT Backbone,base+tiny版本实现全方位超越(一)
超简单高效方法 | 谷歌提出MOAT Backbone,base+tiny版本实现全方位超越(一)
88 0