RT-DETR改进策略【模型轻量化】| EMO：ICCV 2023，结构简洁的轻量化自注意力模型

2025-02-09 660

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RT-DETR改进策略【模型轻量化】| EMO：ICCV 2023，结构简洁的轻量化自注意力模型

一、本文介绍

本文记录的是基于EMO的RT-DETR轻量化改进方法研究。EMO设计简洁，仅由iRMB构成4阶段架构，无复杂操作与模块，无需精细调整超参数。其中iRMB通过特定算子设计，用DW - Conv和EW - MHSA分别建模短/长距离依赖关系，在降低计算量的同时保障精度。将EMO应用到RT-DETR的骨干网络中，使模型在保持轻量化的前提下，提升其在目标检测任务中的性能。

本文在RT-DETR的基础上配置了原论文中EMO_1M, EMO_2M, EMO_5M, EMO_6M四种模型，以满足不同的需求。

模型	参数量	计算量
rtdetr-l	32.8M	108.0GFLOPs
Improved	22.9M	64.6GFLOPs

专栏目录：RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：RT-DETR改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、EMO原理介绍

RethinkingMobileBlockforEfficientAttention-basedModels

EMO模型旨在为移动应用设计高效的基于注意力的轻量级模型，在多个视觉任务上取得了优异的性能。以下从出发点、结构原理和优势三个方面详细介绍：

2.1 出发点

随着对存储和计算资源有限的移动应用中高效视觉模型需求的增加，传统基于CNN的模型受静态CNN自然归纳偏差限制，准确性有待提高；
基于注意力的模型虽有优势，但因多头自注意力MHSA计算量呈二次方增长，资源消耗大。
此外，当前高效混合模型存在结构复杂或模块繁多的问题，不利于应用优化。

因此，需要探索为基于注意力的模型构建类似IRB的轻量级基础架构。

2.2 结构原理

Meta Mobile Block（元移动块）：从MobileNetv2的倒残差块（IRB）和Transformer的核心模块MHSA、FFN重新思考，归纳抽象出元移动块（MMB）。
以图像输入$X(\in \mathbb{R}^{C ×H ×W})$为例，MMB首先通过输出/输入比为λ的扩展$MLP{e}$扩展通道维度，得到$X{e}=MLP{e}(X)\left(\in \mathbb{R}^{\lambda C × H × W}\right)$；然后通过高效算子F增强图像特征；最后通过输入/输出比为λ的收缩$MLP{s}$收缩通道维度，得到$X{s}=MLP{s}\left(X{f}\right)\left(\in \mathbb{R}^{C × H × W}\right)$，并通过残差连接得到最终输出$Y = X + X{s}(\in \mathbb{R}^{C ×H ×W})$ 。

在这里插入图片描述

Inverted Residual Mobile Block（倒残差移动块，iRMB）：基于MMB，将iRMB中的F建模为级联的MHSA和卷积操作，即$F(\cdot)=Conv(MHSA(\cdot))$。为解决高成本问题，采用高效的窗口MHSA（WMHSA）和深度可分离卷积（DW-Conv）并添加残差连接，同时提出改进的EW - MHSA，即$Q = K = X(\in \mathbb{R}^{C ×H ×W})$，$V(\in \mathbb{R}^{\lambda C ×H ×W})$，公式为$\mathcal{F}(\cdot)=( DW-Conv, Skip )(EW-MHSA (\cdot))$。

在这里插入图片描述