超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务-阿里云开发者社区

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

2024-12-13 182 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 中科大研究团队提出了一种新型目标检测器D-FINE，通过重新定义边界框回归任务，实现超越YOLOv10/11和RT-DETRv2/3的性能。D-FINE采用细粒度分布细化（FDR）和全局最优定位自蒸馏（GO-LSD）技术，显著提高了定位精度和检测速度。在COCO数据集上，D-FINE-L/X分别达到54.0%/55.8%的AP，并在NVIDIA T4 GPU上以124/78 FPS运行。

在计算机视觉领域，目标检测一直是研究的热点。近年来，基于深度学习的目标检测算法取得了显著的进展，其中YOLO系列和DETR系列算法尤为突出。然而，这些算法在边界框回归任务上仍存在一定的局限性。为了解决这一问题，中科大的研究团队提出了一种名为D-FINE的新型目标检测器，该检测器通过重新定义边界框回归任务，实现了超越YOLOv10/11、RT-DETRv2/3的性能。

D-FINE的核心思想是将边界框回归任务从预测固定坐标转变为迭代地细化概率分布。具体而言，D-FINE由两个关键组件组成：细粒度分布细化（FDR）和全局最优定位自蒸馏（GO-LSD）。

FDR通过将回归过程从预测固定坐标转变为迭代地细化概率分布，提供了一种细粒度的中间表示，从而显著提高了定位精度。与传统的边界框回归方法相比，FDR能够更准确地捕捉目标的位置和形状信息，从而提高检测性能。

GO-LSD是一种双向优化策略，它通过自蒸馏将细化后的分布中的定位知识传递给较浅的层，同时简化了较深层的残差预测任务。这种双向优化策略不仅提高了模型的定位能力，还减少了模型的计算复杂度，从而实现了速度和精度的平衡。

为了验证D-FINE的性能，研究团队在COCO数据集上进行了实验。实验结果表明，D-FINE-L/X在COCO数据集上分别达到了54.0%/55.8%的AP，并在NVIDIA T4 GPU上以124/78 FPS的速度运行。当在Objects365数据集上进行预训练时，D-FINE-L/X的性能进一步提升，分别达到了57.1%/59.3%的AP，超越了所有现有的实时检测器。

此外，研究团队还对D-FINE在不同DETR模型上的性能进行了评估。结果表明，D-FINE能够显著提高各种DETR模型的性能，最高可提升5.3%的AP，且额外参数和训练成本几乎可以忽略不计。

D-FINE的优势主要体现在以下几个方面：

定位精度高：通过重新定义边界框回归任务，D-FINE能够更准确地捕捉目标的位置和形状信息，从而提高检测性能。
速度与精度平衡：通过引入轻量级优化和双向优化策略，D-FINE在保持高精度的同时，实现了较快的检测速度。
通用性强：D-FINE能够显著提高各种DETR模型的性能，具有广泛的应用前景。

然而，D-FINE也面临一些挑战：

计算复杂度：尽管D-FINE通过轻量级优化和双向优化策略减少了计算复杂度，但在实际应用中，仍需要考虑计算资源的限制。
数据依赖性：D-FINE的性能高度依赖于训练数据的质量和数量。在实际应用中，如何获取高质量的训练数据是一个重要的问题。
模型泛化能力：尽管D-FINE在COCO和Objects365等数据集上表现出色，但在其他数据集上的性能仍有待验证。

论文地址: https://arxiv.org/abs/2410.13842

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

热门文章

最新文章

相关电子书