RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛

简介: RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛

一、本文介绍

本文记录的是基于 EfficientNet v2 的 RT-DETR轻量化改进方法研究EfficientNet v2针对EfficientNet v1存在的训练瓶颈,如大图像尺寸训练慢早期深度卷积层速度慢以及等比例缩放各阶段非最优等情况进行改进,以实现训练速度快参数效率高泛化能力好的优势,将其应用到RT-DETR中有望提升模型整体性能,在保证精度的同时降低模型复杂度和训练时间

本文在替换骨干网络中配置了原论文中的efficientnet_v2_sefficientnet_v2_mefficientnet_v2_lefficientnet_v2_xl四种模型,以满足不同的需求。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EfficientNet v2详解

EfficientNetV2: Smaller Models and Faster Training

2.1 出发点

2.1.1 训练效率问题

在深度学习中,随着模型和数据规模的增大,训练效率愈发关键。例如,GPT - 3 虽然展现出强大的少样本学习能力,但训练需要耗费大量时间和资源,难以重新训练或改进。EfficientNet v2 旨在提高训练速度的同时保持参数效率,为此对 EfficientNet(v1)的训练瓶颈进行了系统研究,发现了几个关键问题:

  • 大图像尺寸训练慢EfficientNet的大图像尺寸导致显著的内存使用,由于 GPU/TPU 总内存固定,不得不使用较小的批量大小进行训练,从而大幅减慢训练速度
  • 早期深度卷积层速度慢EfficientNet中广泛使用的深度卷积在早期层中速度较慢,尽管其参数和 FLOPs 比常规卷积少,但不能充分利用现代加速器
  • 等比例缩放各阶段非最优EfficientNet使用简单的复合缩放规则等比例缩放所有阶段,然而不同阶段对训练速度和参数效率的贡献并不相同,且激进地增大图像尺寸会导致内存消耗大和训练慢

    2.2 结构原理

    2.2.1 融合模块(Fused - MBConv)的使用

    基于对训练瓶颈的分析,EfficientNet v2的搜索空间引入了新的操作,如Fused - MBConv

它用单个常规conv3x3替换了MBConv中的 depthwise conv3x3 和 expansion conv1x1。通过在 EfficientNet - B4 中逐步用 Fused - MBConv 替换原始 MBConv 的实验发现,在早期阶段(1 - 3 阶段)替换可以提高训练速度且参数和 FLOPs 增加较少,但全部替换(1 - 7 阶段)会显著增加参数和 FLOPs 并减慢训练,因此需要找到两者的最佳组合,这促使使用神经架构搜索来自动寻找。

在这里插入图片描述

2.2.2 训练感知的 NAS 和缩放策略

  • NAS 搜索:训练感知的NAS框架旨在联合优化现代加速器上的准确性、参数效率和训练效率

    • 以EfficientNet为骨干网络,搜索空间是基于阶段的分解空间,包括卷积操作类型({MBConv, Fused-MBConv})层数核大小({3x3, 5x5})扩展比({1, 4, 6})等设计选择。通过减少不必要的搜索选项和重用骨干网络的通道大小来缩小搜索空间,然后在与EfficientNetB4大小相当的更大网络上应用强化学习或随机搜索,采样多达1000个模型并每个模型训练约10个周期,搜索奖励结合了模型准确性、归一化训练步长时间和参数大小。
  • EfficientNet v2 架构特点

    • 在早期层广泛使用MBConvFused - MBConvMBConv倾向于使用更小的扩展比以减少内存访问开销;倾向于使用更小的 3x3 核大小,并通过增加更多层来补偿较小核尺寸导致的感受野减小;
    • 完全移除了原始EfficientNet中的最后一个stride-1阶段,可能是由于其较大的参数大小和内存访问开销。
    • EfficientNet v2-S为例,其架构中不同阶段的操作、步长、通道数和层数都有特定的设置。
  • 缩放策略:通过类似的复合缩放方法将EfficientNet v2-S扩展为EfficientNet v2-M/L,并进行了一些优化,如限制最大推理图像尺寸为480以避免内存和训练速度开销过大,以及逐渐向后阶段添加更多层来增加网络容量而不增加太多运行时开销。

    2.3 优势

  • 训练速度快:通过训练感知的NAS缩放EfficientNet v2相比之前的模型训练速度大幅提高。
  • 参数效率高:在保持较高准确性的同时,EfficientNet v2的参数规模相比之前的模型大幅减小。
  • 泛化能力好:在 CIFAR - 10、CIFAR - 100、Flowers 和 Cars 等迁移学习数据集上的实验表明,EfficientNet v2模型相比之前的 ConvNets 和 Vision Transformers 表现更好,具有良好的泛化能力。

论文:https://arxiv.org/pdf/2104.00298
源码:https://github.com/google/automl/tree/master/efficientnetv2

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145253883

目录
相关文章
|
1月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
88 9
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
81 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
1月前
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
49 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
1月前
|
计算机视觉
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
58 12
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
71 10
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
|
1月前
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
58 2
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
|
22天前
|
机器学习/深度学习 数据可视化 API
DeepSeek生成对抗网络(GAN)的训练与应用
生成对抗网络(GANs)是深度学习的重要技术,能生成逼真的图像、音频和文本数据。通过生成器和判别器的对抗训练,GANs实现高质量数据生成。DeepSeek提供强大工具和API,简化GAN的训练与应用。本文介绍如何使用DeepSeek构建、训练GAN,并通过代码示例帮助掌握相关技巧,涵盖模型定义、训练过程及图像生成等环节。
|
1月前
|
机器学习/深度学习
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
68 11
|
3月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
100 17
|
3月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。

热门文章

最新文章