3实验
3.1 From Sparse R-CNN to DDQ
表 1 显示了本研究中从 Sparse R-CNN 到 DDQ 的逐步提升。使用 300 个查询的 Sparse R-CNN
使用标准的 1× 训练实现了 39.4 AP,这比使用 3× 训练时间和更重的增强低约 5.6 AP。训练时间短的性能显著下降已经暗示了 Sparse R-CNN
的收敛困难。
表 1 From Sparse R-CNN to DDQ
在每个阶段开始时对查询应用重复删除可将性能提高 2AP 至 41.4AP,而推理速度几乎没有牺牲。将查询数量进一步增加到 7000 也可以提高性能,但推理时间会很长。
用开发的 RPN 结构生成的特征替换独立查询并减少到 2 个细化阶段,保持使用 7000 个查询的性能,但在内存和推理时间上的成本显著降低。最后,DDQ 在延迟方面能够与 Sparse R-CNN
相媲美,但由于其他一些进一步的结构改进,例如 FRF RoIAlign
和 Query Distinctness Enhancement
,它实现了 44.5 AP。这一性能领先于采用相同Backbone的最先进的目标检测器高 2个AP。巨大的改进证明了密集和不同查询作为设计目标检测器的指导原则的有效性。
请注意,
DDQ
仅增加了Sparse R-CNN
的边际推理延迟(17.7 ms vs 16.4 ms),这比其他竞争方法快得多。例如,Deformable DETR
以 21.7 ms 的延迟实现 AP 43.8 AP,Cascade R-CNN
以 19.4 ms 的延迟实现 40.3 AP。DDQ
都比这些方法实现了更好的性能和更快的推理。
3.2 SOTA对比
4参考
[1].What Are Expected Queries in End-to-End Object Detection?
5推荐阅读
STDC升级 | STDC-MA 更轻更快更准,超越 STDC 与 BiSeNetv2