RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)

简介: RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)

一、本文介绍

本文记录的是将ConvNeXt V2应用到RT-DETR中的改进方法研究。本文将ConvNeXt V2应用于RT-DETR,一方面利用全卷积掩码自动编码器在训练时优化特征学习,减少模型对大规模标注数据的依赖;另一方面,通过全局响应归一化层增强特征竞争,缓解特征坍塌问题,提高特征多样性。

本文在RT-DETR的基础上配置了原论文中convnextv2_atto', 'convnextv2_femto, convnextv2_pico, convnextv2_nano, convnextv2_tiny, convnextv2_base, convnextv2_large, convnextv2_huge八种模型,以满足不同的需求。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、ConvNeXt V2介绍

ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

ConvNeXt V2是一种全新的ConvNet模型家族,旨在提升纯卷积神经网络在各类下游任务中的性能。它在模型结构设计上有独特的出发点,结构原理涉及多个创新组件,并且在性能上展现出显著优势。

2.1 设计出发点

  • 架构与自监督学习结合的挑战:视觉识别领域中,神经网络架构和自监督学习框架对模型性能至关重要。将ConvNeXt与掩码自动编码器(MAE)结合时存在挑战,MAE的编解码器设计针对Transformer的序列处理能力优化,与使用密集滑动窗口的标准ConvNets不兼容。直接将两者结合,未考虑架构与训练目标的关系,难以达到最优性能。先前研究也表明,用基于掩码的自监督学习训练ConvNets存在困难。
  • 特征坍塌问题:对ConvNeXt进行特征空间分析时发现,直接在掩码输入上训练ConvNeXt,MLP层存在特征坍塌现象,即许多特征图处于死亡或饱和状态,通道间激活冗余,这影响了模型的性能。

2.2 结构原理

  • 全卷积掩码自动编码器(FCMAE):采用随机掩码策略,掩码率为0.6,在最后阶段生成掩码并递归上采样到最高分辨率。使用ConvNeXt模型作为编码器,从“稀疏数据视角”出发,将标准卷积层转换为子流形稀疏卷积,使模型仅对可见数据点操作,解决掩码图像建模中信息泄漏问题。解码器采用轻量级的ConvNeXt块,整体形成非对称编解码器架构。计算重建图像与目标图像的均方误差(MSE),仅在掩码区域应用损失。

在这里插入图片描述

  • 全局响应归一化(GRN):为解决特征坍塌问题提出GRN层。该层通过全局特征聚合、特征归一化和特征校准三个步骤,增强通道间的特征竞争。

在这里插入图片描述

具体来说,先使用L2范数进行全局特征聚合,再通过除法归一化计算通道的相对重要性,最后校准原始输入响应。将GRN层融入ConvNeXt块,并去除LayerScale,形成ConvNeXt V2模型家族。

2.3 优势

  • 性能提升显著:在ImageNet分类、COCO检测和ADE20K分割等多种下游任务中,ConvNeXt V2模型性能相比ConvNeXt V1有显著提升。
  • 有效缓解特征坍塌:通过可视化和余弦距离分析可知,ConvNeXt V2有效缓解了特征坍塌问题,各层的余弦距离值较高,表明特征多样性得以保持,学习行为与MAE预训练的ViT模型相似。
  • 模型扩展性强:评估了从低容量的3.7M Atto模型到高容量的650M Huge模型等一系列不同尺寸的模型,结果表明模型具有良好的扩展性,在所有模型尺寸上,微调结果均优于完全监督的对应模型,首次在广泛的模型范围内展示了掩码图像建模的有效性和高效性。

论文:https://arxiv.org/pdf/2301.00808
源码:https://github.com/facebookresearch/ConvNeXt-V2

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145279024

相关文章
|
5月前
|
监控 安全 网络协议
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
642 1
Cisco Identity Services Engine (ISE) 3.5 发布 - 基于身份的网络访问控制和策略实施系统
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
1067 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
447 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
599 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
7月前
|
安全 KVM 虚拟化
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
446 2
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
|
7月前
|
机器学习/深度学习 数据采集 运维
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。
412 6
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
|
6月前
|
监控 安全 Devops
DevOps 流水线的网络安全盲区与防御策略
在软件研发中,DevOps流水线加速了开发与交付,但也带来严重安全风险。自动化节点和第三方集成成为攻击入口,凭证泄露、供应链渗透、配置错误和依赖混乱等问题频发。企业需构建全流程安全体系,嵌入自动化安全策略,强化访问控制与监控,提升全员安全意识,实现效率与安全的协同发展。
563 1
|
人工智能 安全 网络安全
网络安全领导者有效缓解团队倦怠的四步策略
网络安全领导者有效缓解团队倦怠的四步策略
|
8月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
226 4
|
计算机视觉
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
513 12
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络