RT-DETR改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型

简介: RT-DETR改进策略【模型轻量化】| EMO:ICCV 2023,结构简洁的轻量化自注意力模型

一、本文介绍

本文记录的是基于EMO的RT-DETR轻量化改进方法研究EMO设计简洁,仅由iRMB构成4阶段架构,无复杂操作与模块,无需精细调整超参数。其中iRMB通过特定算子设计,用DW - ConvEW - MHSA分别建模短/长距离依赖关系,在降低计算量的同时保障精度。将EMO应用到RT-DETR的骨干网络中,使模型在保持轻量化的前提下,提升其在目标检测任务中的性能。

本文在RT-DETR的基础上配置了原论文中EMO_1M, EMO_2M, EMO_5M, EMO_6M四种模型,以满足不同的需求。

模型 参数量 计算量
rtdetr-l 32.8M 108.0GFLOPs
Improved 22.9M 64.6GFLOPs

专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EMO原理介绍

RethinkingMobileBlockforEfficientAttention-basedModels

EMO模型旨在为移动应用设计高效的基于注意力的轻量级模型,在多个视觉任务上取得了优异的性能。以下从出发点、结构原理和优势三个方面详细介绍:

2.1 出发点

  1. 随着对存储和计算资源有限的移动应用中高效视觉模型需求的增加,传统基于CNN的模型受静态CNN自然归纳偏差限制,准确性有待提高;
  2. 基于注意力的模型虽有优势,但因多头自注意力MHSA计算量呈二次方增长,资源消耗大。
  3. 此外,当前高效混合模型存在结构复杂或模块繁多的问题,不利于应用优化。

因此,需要探索为基于注意力的模型构建类似IRB的轻量级基础架构

2.2 结构原理

  • Meta Mobile Block(元移动块):从MobileNetv2倒残差块(IRB)Transformer的核心模块MHSAFFN重新思考,归纳抽象出元移动块(MMB)
  • 以图像输入$X(\in \mathbb{R}^{C ×H ×W})$为例,MMB首先通过输出/输入比为λ的扩展$MLP{e}$扩展通道维度,得到$X{e}=MLP{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$;然后通过高效算子F增强图像特征;最后通过输入/输出比为λ的收缩$MLP{s}$收缩通道维度,得到$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$,并通过残差连接得到最终输出$Y = X + X{s}(\in \mathbb{R}^{C ×H ×W})$ 。

在这里插入图片描述

  • Inverted Residual Mobile Block(倒残差移动块,iRMB):基于MMB,将iRMB中的F建模为级联的MHSA卷积操作,即$F(\cdot)=Conv(MHSA(\cdot))$。为解决高成本问题,采用高效的窗口MHSA(WMHSA)深度可分离卷积(DW-Conv)并添加残差连接,同时提出改进的EW - MHSA,即$Q = K = X(\in \mathbb{R}^{C ×H ×W})$,$V(\in \mathbb{R}^{\lambda C ×H ×W})$,公式为$\mathcal{F}(\cdot)=( DW-Conv, Skip )(EW-MHSA (\cdot))$。

在这里插入图片描述

  • EMO整体架构:设计了基于一系列iRMB的类似ResNet的4阶段高效模型(EMO)。整体框架仅由iRMB组成,无多样化模块;iRMB仅包含标准卷积多头自注意力,无需其他复杂算子,且能通过步长适应下采样操作,无需位置嵌入;采用逐渐增加的扩展率和通道数。

在这里插入图片描述

2.3 优势

  • 性能卓越:在ImageNet - 1K、COCO2017和ADE20K等基准测试上,EMO表现出色。)。
  • 计算高效:与其他模型相比,EMO在参数数量和计算量上更具优势。)。
  • 设计简洁:遵循简单的设计准则,模型结构简洁,仅由iRMB组成,避免了复杂的操作和模块,更易于优化和部署 。

论文:https://arxiv.org/pdf/2301.01146
源码:https://github.com/zhangzjn/EMO

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145284312

相关文章
|
人工智能 自然语言处理 测试技术
Claude 3非常厉害,但是国内用不上怎么办?
【2月更文挑战第16天】Claude 3非常厉害,但是国内用不上怎么办?
6463 1
Claude 3非常厉害,但是国内用不上怎么办?
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
488 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
1038 63
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
|
机器学习/深度学习 人工智能 数据可视化
ShuffleNet:极致轻量化卷积神经网络(分组卷积+通道重排)
我们引入了一个高效计算的CNN结构名字叫做shuffleNet,这个结构被设计用来解决部署算力非常有限的移动设备问题,这个新的结构使用了两个新的操作,pointwise group convolution 和 channel shuffle能够在极大减少计算量的同时保持一定的精度。我们在ImageNet classification和MS COCO目标检测数据集上做实验论证了ShuffleNet和其他的结构相比有着很好的性能。比如,相比于mobilenet,shufflenet在ImageNet 分类任务上有着更低的top-1错误率(错误率是7.8%)需要的计算量为40MFLOPs。在一个AR
4026 0
ShuffleNet:极致轻量化卷积神经网络(分组卷积+通道重排)
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
708 62
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
|
机器学习/深度学习 测试技术 计算机视觉
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
403 14
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
|
算法 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
351 4
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
|
并行计算 PyTorch Shell
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
1470 11
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
|
机器学习/深度学习 计算机视觉 iOS开发
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
937 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
10981 58