目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(二)

简介: 目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(二)

4、DEYO


4.1、Overview

本文的模型使用YOLOv5作为第一阶段,DINO作为第二阶段,提供了一种新的基于渐进推理的两阶段模型。在本文中,第一阶段的YOLOv5模型称为PRE-DEYO,第二阶段的DINO模型称为POST-DEYO。作为经典YOLO系列的检测器,PRE-DEYO包含一个主干、一个包括FPN+PAN的颈部和一个输出三个尺度预测信息的头部。作为一个类似DETR的模型,POST-DEYO包含一个主干、多层Transformer编码器、多层Transformer解码器和多个预测头。它使用Anchor的静态query和动态初始化,并涉及用于比较去噪训练的Additional CDN分支。

整个DEYO模型如图3所示。PRE-DEYO的输出通过转换组件与PRE-DEJO的初始化query和Anchor相结合,并输入到Transformer解码器。POST-DEYO可以在训练期间快速获取PRE-DEYO的信息,并专注于困难的任务。

本文给出了两种标签分配方法,DEYO默认使用POST匹配,PRE匹配仅用于消融研究。PRE匹配类似于POST匹配,PRE-DEYO的输出直接与GT匹配,以避免二分匹配不稳定性对目标分配的影响。

4.2、DINO briefing

DINO是一种基于DN-DETR、DAB-DETR和Deformable-DETR的类DETR模型,将解码器中的query公式化为动态Anchor,并在解码器层中逐步细化。在DN-DETR之后,DINO将去噪训练改进为对比去噪训练(CDN),提高了对没有附近对象的Anchor的“无目标”预测能力,同时在训练期间稳定了二分图匹配。

同时,DINO还使用可变形注意力来提高其计算效率。动态Anchor Box的逐层细化有助于POST-DEYO在推理中微调PRE-DEYO的高质量Anchor Box。可变形注意力与高质量Anchor Box相结合,使POST-DEYO能够快速找到图像中的关键信息,进一步加快边界框过滤、验证和调整图像内容。

4.3、Transition components

转换组件处理从PRE-DEYO发送到POST-DETR的信息,以确保信息解释期间的一致性,并确保从PRE-DIYO过滤的信息最适合POST-DEYO。

1、Prediction selection

PRE-DEYO预测了许多几乎相同的边界框,如果没有引入过滤机制,则训练过程中会导致POST-DEYO崩溃。作者发现POST-DEYO中的过滤能力是有限的。因此,POST-DEYO很难学习相似和重叠框的正确过滤策略。

因此,作者将NMS包含在转换组件中,以过滤来自PRE-DEYO的信息。为了保证模型的最终性能,作者通过调整合适的IoU阈值来获得最适合POST-DEYO的高质量query和Anchor。在过渡组件中使用NMS不会限制模型的最终性能,因为由于错误保留或删除框而可能导致的性能下降在POST-DEYO中得到了补偿。

2、Padding

由于每张图像中的目标数量会动态变化,因此PRE-DEYO生成的高质量query和Anchor在发送到POST-DEYO之前会被填充到特定的数字。该策略确保了每个epoch中query数量的稳定性。填充query不参与二分图匹配或损失计算,并且不用于最终预测结果。

3、Label Mapper

PRE-DEYO的COCO类别指数从0到79,POST-DEYO COCO类别索引从0到90,涉及POST-DEY中几个未使用的类别指数。标签映射器将PRE-DEYO的类别索引替换为POST-DEYO中CDN组件的同一类别所使用的序列号。对齐类别索引允许模型只学习一种类型的编码系统并加速模型训练。

4、Class Embedding

PRE-DEYO的类别信息通过类嵌入被投影到隐藏特征维度,然后被发送到Transformer编码器。由于COCO类别号一致,本文的类嵌入与CDN的标签嵌入一致,但独立于标签嵌入,大大加快了模型学习PRE-DEYO类别信息的过程。

5、Post Processing of Anchor

由于PRE-DEYO和POST-DEYO的推断是在不同的图像尺度下进行的,因此Anchor后处理将PRE-DEY的高质量Anchor与POST-DEY的尺度对齐。在归一化和inverse sigmoid 处理之后,Anchor被传送到POST-DEYO的解码器。


5、实验


5.1、Main Results

image.png

5.2、Ablation Study

image.png

在表3和表4中,利用PRE匹配来保护CDN不受增加二分匹配稳定性对性能的影响。在表3中,探讨了不同的类嵌入方法对第一个epoch性能的影响,并发现在CDN上使用标签嵌入对POST-DEYO从PRE-DEYO学习信息最为有利。

作者还分析了CDN对POST-DEYO性能的增益,表4中的结果表明,除了提高匹配后二分匹配的稳定性之外,CDN还可以引导模型学习正确重建来自PRE-DEYO的信息。

image.png

在图4(a)中,作者使用900个query分析了训练收敛曲线,这些query都来自PRE-DEYO,过渡分量的iou阈值不同。结果表明,POST-DEYO的电流滤波鉴别能力有限,性能随着iou阈值的升高而降低。

作者还分析了12个epoch训练收敛曲线混合和原始query,如图4(b)所示。结果表明,使用混合query的DEYO模型对query数量的变化最不敏感。DEYO模型使用来自PRE-DEYO的计算成本较低的预测来减少计算成本较高的query数量,而不会降低准确性和加快推理速度。

image.png

在表5中分析了使用不同的PRE-DEYO对DEYO整体性能的影响。结果表明,query和anchor的质量在很大程度上决定了最终的性能。这是因为良好的query和anchor质量可以为POST-DEYO建立明确的优化目标,使预测一对一对象集变得更容易,而低质量的query和anchor会使POST-DEXO训练变得更困难。

5.3、分析

对比去噪训练对于DEYO模型至关重要,可以增强POST-DEYO二分法匹配的稳定性,并指导POST-DEYO在推理中获得更好的结果。正如在Let’s think by think中一样,精心设计的中间推理步骤可以显著提高模型的最终性能。

因此,作者认为,POST-DEYO的鉴别滤波能力不仅取决于解码器,还与CDN等组件的设计密切相关。在表3中,将共享嵌入导致的性能下降与独立嵌入进行了比较,这表明CDN query anchor和POST-DEYO初始化中的query anchor在训练期间是不明确的。作者相信,更好的“CDN”和中间推理指导可以帮助POST-DEYO在更大程度上利用PRE-DEYO的潜在性能。


6、总结


本文提出了一种新的两阶段目标检测模型DEYO,该模型采用基于分步思想的渐进推理方法。该模型降低了类DETR模型预测一对一对象集的难度,并从新的角度解决了类DETR模型收敛速度慢的问题。同时,它有效地改善了经典检测器由于NMS后处理而导致的性能瓶颈问题。结果表明,渐进推理方法显著加快了收敛速度并提高了性能,使用ResNet-50作为主干,在1x(epochs)设置中获得了最佳结果。

考虑到限制和未来的工作,轻量级过渡组件和POST-DEYO还没有充分利用第一阶段的信息。事实上,图4(a)强调了由于不适当地过滤信息而导致的性能下降。因此,应探索两个阶段之间更有效的信息传输方案,并应改进不完善的信息编码和解码,以避免最终性能下降。


7、参考


[1].DEYO: DETR with YOLO for Step-by-Step Object Detection.


8、推荐阅读


3D检测界的“YOLO” | 将PointPillars优化16倍,还能很好的控制精度,非常香!!!

视觉进阶笔记开源 | AI计算机视觉全栈知识总结

纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin

相关文章
|
机器学习/深度学习 编解码 文件存储
YOLOv5改进 | 融合改进篇 | BiFPN+ RepViT(教你如何融合改进机制)
YOLOv5改进 | 融合改进篇 | BiFPN+ RepViT(教你如何融合改进机制)
1677 1
|
数据挖掘 计算机视觉
YOLOv5改进 | 损失篇 | VarifocalLoss密集检测专用损失函数 (VFLoss,论文一比一复现)
YOLOv5改进 | 损失篇 | VarifocalLoss密集检测专用损失函数 (VFLoss,论文一比一复现)
942 1
|
网络架构
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
589 0
|
12月前
|
传感器 人工智能 算法
AI计算机视觉笔记二十七:YOLOV8实现目标追踪
本文介绍了使用YOLOv8实现人员检测与追踪的方法。通过为每个人员分配唯一ID,实现持续追踪,并可统计人数,适用于小区或办公楼出入管理。首先解释了目标检测与追踪的区别,接着详细描述了使用匈牙利算法和卡尔曼滤波实现目标关联的过程。文章提供了基于IOU实现追踪的具体步骤,包括环境搭建、模型加载及追踪逻辑实现。通过示例代码展示了如何使用YOLOv8进行实时视频处理,并实现人员追踪功能。测试结果显示,该方法在实际场景中具有较好的应用潜力。
1428 4
|
机器学习/深度学习 人工智能 自然语言处理
RT-DETR原理与简介(干翻YOLO的最新目标检测项目)
RT-DETR原理与简介(干翻YOLO的最新目标检测项目)
|
机器学习/深度学习 计算机视觉
YOLOv5改进 | 2023 | LSKAttention大核注意力机制助力极限涨点
YOLOv5改进 | 2023 | LSKAttention大核注意力机制助力极限涨点
372 1
|
XML 机器学习/深度学习 数据格式
YOLOv8训练自己的数据集+常用传参说明
YOLOv8训练自己的数据集+常用传参说明
18640 1
|
机器学习/深度学习
YOLOv8的多分类模型如何计算准确率(Accuracy)、精确率(Precision)、召回率(recall)和F1-Score模型评估参数
YOLOv8的多分类模型如何计算准确率(Accuracy)、精确率(Precision)、召回率(recall)和F1-Score模型评估参数
|
11月前
yolov5的coco128.yaml的配置信息详解
这篇文章详细解释了YOLOv5的`coco128.yaml`配置文件中的参数,包括训练和验证数据集的路径、类别数量以及类别名称。
498 0
|
算法 计算机视觉
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解