目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(二)

简介: 目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(二)

4、DEYO


4.1、Overview

本文的模型使用YOLOv5作为第一阶段,DINO作为第二阶段,提供了一种新的基于渐进推理的两阶段模型。在本文中,第一阶段的YOLOv5模型称为PRE-DEYO,第二阶段的DINO模型称为POST-DEYO。作为经典YOLO系列的检测器,PRE-DEYO包含一个主干、一个包括FPN+PAN的颈部和一个输出三个尺度预测信息的头部。作为一个类似DETR的模型,POST-DEYO包含一个主干、多层Transformer编码器、多层Transformer解码器和多个预测头。它使用Anchor的静态query和动态初始化,并涉及用于比较去噪训练的Additional CDN分支。

整个DEYO模型如图3所示。PRE-DEYO的输出通过转换组件与PRE-DEJO的初始化query和Anchor相结合,并输入到Transformer解码器。POST-DEYO可以在训练期间快速获取PRE-DEYO的信息,并专注于困难的任务。

本文给出了两种标签分配方法,DEYO默认使用POST匹配,PRE匹配仅用于消融研究。PRE匹配类似于POST匹配,PRE-DEYO的输出直接与GT匹配,以避免二分匹配不稳定性对目标分配的影响。

4.2、DINO briefing

DINO是一种基于DN-DETR、DAB-DETR和Deformable-DETR的类DETR模型,将解码器中的query公式化为动态Anchor,并在解码器层中逐步细化。在DN-DETR之后,DINO将去噪训练改进为对比去噪训练(CDN),提高了对没有附近对象的Anchor的“无目标”预测能力,同时在训练期间稳定了二分图匹配。

同时,DINO还使用可变形注意力来提高其计算效率。动态Anchor Box的逐层细化有助于POST-DEYO在推理中微调PRE-DEYO的高质量Anchor Box。可变形注意力与高质量Anchor Box相结合,使POST-DEYO能够快速找到图像中的关键信息,进一步加快边界框过滤、验证和调整图像内容。

4.3、Transition components

转换组件处理从PRE-DEYO发送到POST-DETR的信息,以确保信息解释期间的一致性,并确保从PRE-DIYO过滤的信息最适合POST-DEYO。

1、Prediction selection

PRE-DEYO预测了许多几乎相同的边界框,如果没有引入过滤机制,则训练过程中会导致POST-DEYO崩溃。作者发现POST-DEYO中的过滤能力是有限的。因此,POST-DEYO很难学习相似和重叠框的正确过滤策略。

因此,作者将NMS包含在转换组件中,以过滤来自PRE-DEYO的信息。为了保证模型的最终性能,作者通过调整合适的IoU阈值来获得最适合POST-DEYO的高质量query和Anchor。在过渡组件中使用NMS不会限制模型的最终性能,因为由于错误保留或删除框而可能导致的性能下降在POST-DEYO中得到了补偿。

2、Padding

由于每张图像中的目标数量会动态变化,因此PRE-DEYO生成的高质量query和Anchor在发送到POST-DEYO之前会被填充到特定的数字。该策略确保了每个epoch中query数量的稳定性。填充query不参与二分图匹配或损失计算,并且不用于最终预测结果。

3、Label Mapper

PRE-DEYO的COCO类别指数从0到79,POST-DEYO COCO类别索引从0到90,涉及POST-DEY中几个未使用的类别指数。标签映射器将PRE-DEYO的类别索引替换为POST-DEYO中CDN组件的同一类别所使用的序列号。对齐类别索引允许模型只学习一种类型的编码系统并加速模型训练。

4、Class Embedding

PRE-DEYO的类别信息通过类嵌入被投影到隐藏特征维度,然后被发送到Transformer编码器。由于COCO类别号一致,本文的类嵌入与CDN的标签嵌入一致,但独立于标签嵌入,大大加快了模型学习PRE-DEYO类别信息的过程。

5、Post Processing of Anchor

由于PRE-DEYO和POST-DEYO的推断是在不同的图像尺度下进行的,因此Anchor后处理将PRE-DEY的高质量Anchor与POST-DEY的尺度对齐。在归一化和inverse sigmoid 处理之后,Anchor被传送到POST-DEYO的解码器。


5、实验


5.1、Main Results

image.png

5.2、Ablation Study

image.png

在表3和表4中,利用PRE匹配来保护CDN不受增加二分匹配稳定性对性能的影响。在表3中,探讨了不同的类嵌入方法对第一个epoch性能的影响,并发现在CDN上使用标签嵌入对POST-DEYO从PRE-DEYO学习信息最为有利。

作者还分析了CDN对POST-DEYO性能的增益,表4中的结果表明,除了提高匹配后二分匹配的稳定性之外,CDN还可以引导模型学习正确重建来自PRE-DEYO的信息。

image.png

在图4(a)中,作者使用900个query分析了训练收敛曲线,这些query都来自PRE-DEYO,过渡分量的iou阈值不同。结果表明,POST-DEYO的电流滤波鉴别能力有限,性能随着iou阈值的升高而降低。

作者还分析了12个epoch训练收敛曲线混合和原始query,如图4(b)所示。结果表明,使用混合query的DEYO模型对query数量的变化最不敏感。DEYO模型使用来自PRE-DEYO的计算成本较低的预测来减少计算成本较高的query数量,而不会降低准确性和加快推理速度。

image.png

在表5中分析了使用不同的PRE-DEYO对DEYO整体性能的影响。结果表明,query和anchor的质量在很大程度上决定了最终的性能。这是因为良好的query和anchor质量可以为POST-DEYO建立明确的优化目标,使预测一对一对象集变得更容易,而低质量的query和anchor会使POST-DEXO训练变得更困难。

5.3、分析

对比去噪训练对于DEYO模型至关重要,可以增强POST-DEYO二分法匹配的稳定性,并指导POST-DEYO在推理中获得更好的结果。正如在Let’s think by think中一样,精心设计的中间推理步骤可以显著提高模型的最终性能。

因此,作者认为,POST-DEYO的鉴别滤波能力不仅取决于解码器,还与CDN等组件的设计密切相关。在表3中,将共享嵌入导致的性能下降与独立嵌入进行了比较,这表明CDN query anchor和POST-DEYO初始化中的query anchor在训练期间是不明确的。作者相信,更好的“CDN”和中间推理指导可以帮助POST-DEYO在更大程度上利用PRE-DEYO的潜在性能。


6、总结


本文提出了一种新的两阶段目标检测模型DEYO,该模型采用基于分步思想的渐进推理方法。该模型降低了类DETR模型预测一对一对象集的难度,并从新的角度解决了类DETR模型收敛速度慢的问题。同时,它有效地改善了经典检测器由于NMS后处理而导致的性能瓶颈问题。结果表明,渐进推理方法显著加快了收敛速度并提高了性能,使用ResNet-50作为主干,在1x(epochs)设置中获得了最佳结果。

考虑到限制和未来的工作,轻量级过渡组件和POST-DEYO还没有充分利用第一阶段的信息。事实上,图4(a)强调了由于不适当地过滤信息而导致的性能下降。因此,应探索两个阶段之间更有效的信息传输方案,并应改进不完善的信息编码和解码,以避免最终性能下降。


7、参考


[1].DEYO: DETR with YOLO for Step-by-Step Object Detection.


8、推荐阅读


3D检测界的“YOLO” | 将PointPillars优化16倍,还能很好的控制精度,非常香!!!

视觉进阶笔记开源 | AI计算机视觉全栈知识总结

纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin

相关文章
|
机器学习/深度学习 编解码 计算机视觉
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
Transformer又一城 | Swin-Unet:首个纯Transformer的医学图像分割模型解读
1264 0
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
机器学习/深度学习 编解码 移动开发
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
【论文解读】——基于多尺度卷积网络的遥感目标检测研究(姚群力,胡显,雷宏)
|
机器学习/深度学习 自然语言处理 算法
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
309 0
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
|
存储 编解码 API
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA(1)
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA
498 0
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA(1)
|
机器学习/深度学习 算法 固态存储
目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(一)
目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(一)
665 0
|
存储 编解码 自动驾驶
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(一)
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(一)
165 0
|
编解码 计算机视觉
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(二)
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(二)
240 0
|
机器学习/深度学习 存储 自动驾驶
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(一)
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(一)
1467 0
|
数据可视化 Go 计算机视觉
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(二)
FastPillars实时3D目标检测 | 完美融合PointPillar、YOLO以及RepVGG的思想(二)
228 0