RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)

简介: RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)

一、本文介绍

本文记录的是基于EMA模块的RT-DETR目标检测改进方法研究EMA认为跨维度交互有助于通道或空间注意力预测,并且解决了现有注意力机制在提取深度视觉表示时可能带来的维度缩减问题。==在改进RT-DETR的过程中能够为高级特征图产生更好的像素级注意力,能够建模长程依赖并嵌入精确的位置信息。==


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、EMA原理

Efficient Multi-Scale Attention Module with Cross-Spatial Learning

EMA(Efficient Multi - Scale Attention)注意力模块的设计的原理和优势如下:

2.1 EMA原理

2.1.1 Coordinate Attention(CA)

CA通过全局平均池化操作建模跨通道信息,将原始输入张量分解为两个并行的1D特征编码向量,嵌入空间位置信息到通道注意力图中,以增强特征聚合。但CA忽略了整个空间位置间交互的重要性,且1x1卷积核的有限感受野不利于建模局部跨通道交互和利用上下文信息。

2.1.2 Multi - Scale Attention(EMA)模块

  • 特征分组:对于输入特征图$X \in \mathbb{R}^{C \times H \times W}$,EMA将其在通道维度方向上划分为$G$个子特征$X = [X{0}, X{1}, \ldots, X{G - 1}]$,$X{i} \in \mathbb{R}^{C / G \times H \times W}$,假设学习到的注意力权重描述符将用于增强每个子特征中感兴趣区域的特征表示。
  • 并行子网络EMA采用三个并行路线来提取分组特征图的注意力权重描述符,其中两个在1x1分支,第三个在3x3分支。在1x1分支中,通过两个1D全局平均池化操作分别沿两个空间方向编码通道信息,并将G组重塑和置换到批处理维度,使两个编码特征共享无维度缩减的1x1卷积。在3x3分支中,通过一个3x3卷积捕获多尺度特征表示。这样,EMA不仅编码了通道间信息来调整不同通道的重要性,还将精确的空间结构信息保留到通道中。
  • 跨空间学习:引入两个张量,分别是1x1分支和3x3分支的输出。利用2D全局平均池化在1x1分支的输出中编码全局空间信息,并在通道特征的联合激活机制前将另一个分支的输出转换为对应维度形状。通过矩阵点积操作得到第一个空间注意力图,再类似地得到第二个空间注意力图。最后,每个组内的输出特征图通过两个生成的空间注意力权重值的聚合计算得到,捕获像素级成对关系并突出所有像素的全局上下文。

在这里插入图片描述

2.2 特点

  • 建立多尺度并行子网络:采用并行子结构,避免了更多的顺序处理和大深度,有利于有效建立短程和长程依赖,以获得更好的性能。
  • 避免维度缩减:仅选取CA模块中1x1卷积的共享组件,避免了在卷积操作中进行通道维度缩减,从而更有效地学习有效的通道描述。
  • 融合跨空间信息:通过跨空间学习方法,融合了不同尺度的上下文信息,使CNN能够为高级特征图产生更好的像素级注意力,能够建模长程依赖并嵌入精确的位置信息。
  • 高效且有效:与其他注意力方法(如CBAM、NAM、SA、ECA和CA)相比,EMA不仅在性能上取得了更好的结果,而且在所需参数方面更高效。在多个数据集(如CIFAR - 100、ImageNet - 1k、COCO和VisDrone2019)上的实验表明,EMA在图像分类和对象检测任务中都具有优势,模型复杂度相对较小,且在不同的基准模型(如ResNet50/101和MobileNetV2)上集成时均能有效提升性能。

论文:https://doi.org/10.1016/j.neunet.2024.106314
源码:https://github.com/Lose-Code/UBRFC-Net

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144129439

目录
相关文章
|
机器学习/深度学习 人工智能 测试技术
11种开源即插即用模块汇总 !!(附论文和代码)
11种开源即插即用模块汇总 !!(附论文和代码)
630 1
|
8月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
560 10
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
|
8月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【模型轻量化】| GhostNetV2:利用远距离注意力增强廉价操作
RT-DETR改进策略【模型轻量化】| GhostNetV2:利用远距离注意力增强廉价操作
231 63
RT-DETR改进策略【模型轻量化】| GhostNetV2:利用远距离注意力增强廉价操作
|
8月前
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
280 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
8月前
|
机器学习/深度学习 资源调度 计算机视觉
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
285 2
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
|
8月前
|
机器学习/深度学习 计算机视觉 知识图谱
RT-DETR改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
RT-DETR改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
276 2
|
8月前
|
计算机视觉
RT-DETR改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
RT-DETR改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
220 4
RT-DETR改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
|
8月前
|
计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
237 9
|
8月前
RT-DETR改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
RT-DETR改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
374 0
RT-DETR改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
|
8月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
RT-DETR改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
244 13
RT-DETR改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用