4、DEYO
4.1、Overview
本文的模型使用YOLOv5作为第一阶段,DINO作为第二阶段,提供了一种新的基于渐进推理的两阶段模型。在本文中,第一阶段的YOLOv5模型称为PRE-DEYO,第二阶段的DINO模型称为POST-DEYO。作为经典YOLO系列的检测器,PRE-DEYO包含一个主干、一个包括FPN+PAN的颈部和一个输出三个尺度预测信息的头部。作为一个类似DETR的模型,POST-DEYO包含一个主干、多层Transformer编码器、多层Transformer解码器和多个预测头。它使用Anchor的静态query和动态初始化,并涉及用于比较去噪训练的Additional CDN分支。
整个DEYO模型如图3所示。PRE-DEYO的输出通过转换组件与PRE-DEJO的初始化query和Anchor相结合,并输入到Transformer解码器。POST-DEYO可以在训练期间快速获取PRE-DEYO的信息,并专注于困难的任务。
本文给出了两种标签分配方法,DEYO默认使用POST匹配,PRE匹配仅用于消融研究。PRE匹配类似于POST匹配,PRE-DEYO的输出直接与GT匹配,以避免二分匹配不稳定性对目标分配的影响。
4.2、DINO briefing
DINO是一种基于DN-DETR、DAB-DETR和Deformable-DETR的类DETR模型,将解码器中的query公式化为动态Anchor,并在解码器层中逐步细化。在DN-DETR之后,DINO将去噪训练改进为对比去噪训练(CDN),提高了对没有附近对象的Anchor的“无目标”预测能力,同时在训练期间稳定了二分图匹配。
同时,DINO还使用可变形注意力来提高其计算效率。动态Anchor Box的逐层细化有助于POST-DEYO在推理中微调PRE-DEYO的高质量Anchor Box。可变形注意力与高质量Anchor Box相结合,使POST-DEYO能够快速找到图像中的关键信息,进一步加快边界框过滤、验证和调整图像内容。
4.3、Transition components
转换组件处理从PRE-DEYO发送到POST-DETR的信息,以确保信息解释期间的一致性,并确保从PRE-DIYO过滤的信息最适合POST-DEYO。
1、Prediction selection
PRE-DEYO预测了许多几乎相同的边界框,如果没有引入过滤机制,则训练过程中会导致POST-DEYO崩溃。作者发现POST-DEYO中的过滤能力是有限的。因此,POST-DEYO很难学习相似和重叠框的正确过滤策略。
因此,作者将NMS包含在转换组件中,以过滤来自PRE-DEYO的信息。为了保证模型的最终性能,作者通过调整合适的IoU阈值来获得最适合POST-DEYO的高质量query和Anchor。在过渡组件中使用NMS不会限制模型的最终性能,因为由于错误保留或删除框而可能导致的性能下降在POST-DEYO中得到了补偿。
2、Padding
由于每张图像中的目标数量会动态变化,因此PRE-DEYO生成的高质量query和Anchor在发送到POST-DEYO之前会被填充到特定的数字。该策略确保了每个epoch中query数量的稳定性。填充query不参与二分图匹配或损失计算,并且不用于最终预测结果。
3、Label Mapper
PRE-DEYO的COCO类别指数从0到79,POST-DEYO COCO类别索引从0到90,涉及POST-DEY中几个未使用的类别指数。标签映射器将PRE-DEYO的类别索引替换为POST-DEYO中CDN组件的同一类别所使用的序列号。对齐类别索引允许模型只学习一种类型的编码系统并加速模型训练。
4、Class Embedding
PRE-DEYO的类别信息通过类嵌入被投影到隐藏特征维度,然后被发送到Transformer编码器。由于COCO类别号一致,本文的类嵌入与CDN的标签嵌入一致,但独立于标签嵌入,大大加快了模型学习PRE-DEYO类别信息的过程。
5、Post Processing of Anchor
由于PRE-DEYO和POST-DEYO的推断是在不同的图像尺度下进行的,因此Anchor后处理将PRE-DEY的高质量Anchor与POST-DEY的尺度对齐。在归一化和inverse sigmoid 处理之后,Anchor被传送到POST-DEYO的解码器。
5、实验
5.1、Main Results
5.2、Ablation Study
在表3和表4中,利用PRE匹配来保护CDN不受增加二分匹配稳定性对性能的影响。在表3中,探讨了不同的类嵌入方法对第一个epoch性能的影响,并发现在CDN上使用标签嵌入对POST-DEYO从PRE-DEYO学习信息最为有利。
作者还分析了CDN对POST-DEYO性能的增益,表4中的结果表明,除了提高匹配后二分匹配的稳定性之外,CDN还可以引导模型学习正确重建来自PRE-DEYO的信息。
在图4(a)中,作者使用900个query分析了训练收敛曲线,这些query都来自PRE-DEYO,过渡分量的iou阈值不同。结果表明,POST-DEYO的电流滤波鉴别能力有限,性能随着iou阈值的升高而降低。
作者还分析了12个epoch训练收敛曲线混合和原始query,如图4(b)所示。结果表明,使用混合query的DEYO模型对query数量的变化最不敏感。DEYO模型使用来自PRE-DEYO的计算成本较低的预测来减少计算成本较高的query数量,而不会降低准确性和加快推理速度。
在表5中分析了使用不同的PRE-DEYO对DEYO整体性能的影响。结果表明,query和anchor的质量在很大程度上决定了最终的性能。这是因为良好的query和anchor质量可以为POST-DEYO建立明确的优化目标,使预测一对一对象集变得更容易,而低质量的query和anchor会使POST-DEXO训练变得更困难。
5.3、分析
对比去噪训练对于DEYO模型至关重要,可以增强POST-DEYO二分法匹配的稳定性,并指导POST-DEYO在推理中获得更好的结果。正如在Let’s think by think中一样,精心设计的中间推理步骤可以显著提高模型的最终性能。
因此,作者认为,POST-DEYO的鉴别滤波能力不仅取决于解码器,还与CDN等组件的设计密切相关。在表3中,将共享嵌入导致的性能下降与独立嵌入进行了比较,这表明CDN query anchor和POST-DEYO初始化中的query anchor在训练期间是不明确的。作者相信,更好的“CDN”和中间推理指导可以帮助POST-DEYO在更大程度上利用PRE-DEYO的潜在性能。
6、总结
本文提出了一种新的两阶段目标检测模型DEYO,该模型采用基于分步思想的渐进推理方法。该模型降低了类DETR模型预测一对一对象集的难度,并从新的角度解决了类DETR模型收敛速度慢的问题。同时,它有效地改善了经典检测器由于NMS后处理而导致的性能瓶颈问题。结果表明,渐进推理方法显著加快了收敛速度并提高了性能,使用ResNet-50作为主干,在1x(epochs)设置中获得了最佳结果。
考虑到限制和未来的工作,轻量级过渡组件和POST-DEYO还没有充分利用第一阶段的信息。事实上,图4(a)强调了由于不适当地过滤信息而导致的性能下降。因此,应探索两个阶段之间更有效的信息传输方案,并应改进不完善的信息编码和解码,以避免最终性能下降。
7、参考
[1].DEYO: DETR with YOLO for Step-by-Step Object Detection.