RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度

简介: RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度

一、本文介绍

本文记录的是利用DynamicConv优化RT-DETR的目标检测网络模型。 在大规模训练中,模型的参数数量越多,FLOP也越高,但在一些对计算资源有限制的场景下,需要低FLOP的模型同时又希望模型能从大规模预训练中受益。传统的方法很难在增加参数的同时保持低FLOP,因此Dynamic convolution模块应运而生。本文详细研究了Dynamic convolution模块的运行原理,并将其加入到RT-DETR中进行二次创新。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、动态卷积介绍

2.1 设计出发点

  • 在大规模视觉预训练中,通常模型的性能受到数据、参数和FLOP三个关键因素的影响。一般来说,模型的参数数量越多,FLOP也越高,但在移动设备等对计算资源有限制的场景下,需要低FLOP的模型同时又希望模型能从大规模预训练中受益。传统的方法很难在增加参数的同时保持低FLOP,因此需要一种新的设计来解决这个问题,Dynamic convolution模块应运而生。

2.2 原理

  • Dynamic convolution模块基于动态系数生成的原理来工作。对于输入$X$,首先应用全局平均池化将信息融合成一个向量,然后使用一个两层的带有softmax激活的MLP模块来动态地产生系数$\alpha$,即$\alpha = softmax(MLP(Pool(X)))$,这里$\alpha \in \mathbb{R}^{M}$。
  • Dynamic convolution的计算可以表示为$Y = X * W'$,其中$W'=\sum{i = 1}^{M} \alpha{i} W{i}$,$W{i} \in \mathbb{R}^{C{out } ×C{in } ×H ×W}$是第$i$个卷积权重张量,$\alpha{i}$是对应的动态系数。系数$\alpha{i}$是根据不同的输入样本动态生成的。

2.3 结构

  • 系数生成模块:具有$C{in}$隐藏维度,该模块需要$C{in}^{2}+C{in}M$个参数以及$C{in}^{2}+C_{in}M$个FLOP。
  • 动态权重融合模块:此模块是无参数的,具有$M \cdot C{out } \cdot C{in } \cdot K \cdot K$个FLOP。
  • 卷积过程模块:与常规卷积类似,但权重是动态融合后的结果。

动态卷积的FLOP增加量相对标准卷积来说可忽略不计。其FLOP比例$R{flops}$在$1<M \ll H'W', C{in } \approx C_{out }$的条件下约等于$1$,即相比于标准卷积,它在引入更多参数的同时几乎没有带来额外的FLOP。这使得模型在增加参数以更好地从大规模预训练中受益的同时,不会因FLOP的大幅增加而难以在计算资源受限的设备上运行。

论文:https://arxiv.org/pdf/2306.14525
源码:https://github.com/huawei-noah/Efficient-AI-Backbones

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144024413

目录
相关文章
|
机器学习/深度学习 算法 Python
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
1779 1
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
RT-DETR改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
297 13
RT-DETR改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
RT-DETR改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
168 11
RT-DETR改进策略【卷积层】| CVPR-2023 SCConv 空间和通道重建卷积:即插即用,减少冗余计算并提升特征学习
|
9月前
|
计算机视觉
RT-DETR改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进ResNetLayer
RT-DETR改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进ResNetLayer
272 15
RT-DETR改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进ResNetLayer
|
9月前
|
知识图谱
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
250 12
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
406 1
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
706 10
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
|
9月前
|
机器学习/深度学习 存储 编解码
RT-DETR改进策略【Neck】| ArXiv 2023,基于U - Net v2中的的高效特征融合模块:SDI(Semantics and Detail Infusion)
RT-DETR改进策略【Neck】| ArXiv 2023,基于U - Net v2中的的高效特征融合模块:SDI(Semantics and Detail Infusion)
315 16
RT-DETR改进策略【Neck】| ArXiv 2023,基于U - Net v2中的的高效特征融合模块:SDI(Semantics and Detail Infusion)
|
9月前
|
机器学习/深度学习 数据可视化 网络架构
YOLOv11改进策略【SPPF】| NeuralPS-2022 Focal Modulation : 使用焦点调制模块优化空间金字塔池化SPPF
YOLOv11改进策略【SPPF】| NeuralPS-2022 Focal Modulation : 使用焦点调制模块优化空间金字塔池化SPPF
321 14
YOLOv11改进策略【SPPF】| NeuralPS-2022 Focal Modulation : 使用焦点调制模块优化空间金字塔池化SPPF
|
9月前
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
1894 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络