RT-DETR改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含HGBlock二次创新)

简介: RT-DETR改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含HGBlock二次创新)

一、本文介绍

本文记录的是利用SeaFormer++模型中提出的Sea_Attention模块优化RT-DETR的目标检测网络模型Sea_Attention利用挤压轴向注意力有效地提取全局语义信息,并通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。本文将其加入到RT-DETR的不同位置中,使模型能够在不引入过多计算开销的情况下聚合空间信息。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、混合局部通道注意力介绍

SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition

2.1 出发点

传统的全局自注意力机制在处理高分辨率图像时计算成本和内存需求高,不适合移动设备。为了解决这个问题,需要设计一种高效的注意力模块,既能提取全局语义信息,又能保持较低的计算复杂度和内存占用,同时还要能补充局部细节信息,以满足移动设备上的语义分割任务需求。

2.2 原理

2.2.1 Squeeze Axial attention(挤压轴向注意力)

  • 通过自适应地将输入特征图在水平和垂直方向上进行挤压操作,将每个轴上的所有标记映射到一个单一的标记,从而以一种自适应的方式将全局信息保留在单个轴上。
    • 在水平方向上,使用可学习的掩码将查询的所有标记映射到每行的一个单一标记;在垂直方向上同理。这样可以大大降低计算复杂度。
    • 同时,为了使挤压后的轴向注意力具有位置感知能力,引入位置嵌入,使得挤压后的查询和键能够感知到它们在挤压后的轴向特征中的位置。

在这里插入图片描述

2.2.2 Detail enhancement kernel(细节增强核)

  • 由于挤压操作会牺牲局部细节,因此使用一个基于卷积的辅助核来增强空间细节。
  • 首先从输入特征图中获取查询、键和值,并在通道维度上进行拼接,然后通过一个由3×3深度可分离卷积和批量归一化组成的块来聚合辅助局部细节。
  • 最后通过一个线性投影和激活函数以及批量归一化将维度压缩到指定维度,并生成细节增强权重,与挤压轴向注意力得到的特征进行融合。

在这里插入图片描述

2.3 结构

2.3.1 Squeeze Axial attention部分

  • 包括水平和垂直方向的挤压操作,以及相应的位置嵌入
  • 对于水平方向,计算$q{(h)}=\frac{1}{W}\left(q^{\to\left(H, C{qk}, W\right)} A{W}^{\to(H, W, 1)}\right)^{\to\left(H, C{qk}\right)}qx线线A{W}1×1q{(v)}$。
  • 位置嵌入通过从可学习参数线性插值得到,分别为$r{(h)}^{q}, r{(h)}^{k} \in \mathbb{R}^{H ×C{qk}}r{(v)}^{q}, r{(v)}^{k} \in \mathbb{R}^{W ×C{qk}}$,并应用到相应的挤压后的查询和键上。

    2.3.2 Detail enhancement kernel部分

  • 从输入特征图(x)通过另一组线性投影获取查询、键和值$W{q}^{(e)}, W{k}^{(e)} \in \mathbb{R}^{C{qk} ×C}, W{v}^{(e)} \in \mathbb{R}^{C_{v} ×C}$,然后在通道维度上拼接并通过3×3深度可分离卷积和批量归一化块,再经过线性投影、激活函数和批量归一化得到细节增强权重,与挤压轴向注意力的结果融合。

在这里插入图片描述

2.4 优势

  • 计算高效:通过挤压轴向注意力将计算复杂度从O((H+W)HW)降低到O(HW),同时通过自适应的挤压和扩展操作,在不引入过多计算开销的情况下聚合空间信息。
  • 有效提取全局和局部信息:既能通过挤压轴向注意力有效地提取全局语义信息,又能通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。
  • 适合移动设备:只包含卷积、池化、矩阵乘法等移动设备友好的操作,在移动设备上能够实现高效的语义分割。

论文:https://arxiv.org/pdf/2301.13156
源码: https://github.com/fudan-zvg/SeaFormer

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144141018

目录
打赏
0
1
2
0
160
分享
相关文章
RT-DETR改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
RT-DETR改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
53 3
RT-DETR改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
|
1月前
|
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
75 12
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新
RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新
58 13
RT-DETR改进策略【卷积层】| ICCV-2023 LSK大核选择模块 包含ResNetLayer二次独家创新
RT-DETR改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新)
RT-DETR改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新)
65 11
RT-DETR改进策略【Conv和Transformer】| 上下文转换器CoT 结合静态和动态上下文信息的注意力机制 (含二次创新)
RT-DETR改进策略【卷积层】| NeurIPS-2022 ParNet 即插即用模块 二次创新ResNetLayer
RT-DETR改进策略【卷积层】| NeurIPS-2022 ParNet 即插即用模块 二次创新ResNetLayer
41 10
RT-DETR改进策略【卷积层】| NeurIPS-2022 ParNet 即插即用模块 二次创新ResNetLayer
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
88 2
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
RT-DETR改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换下采样模块 并二次创新ResNetLayer
RT-DETR改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换下采样模块 并二次创新ResNetLayer
54 6
RT-DETR改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换下采样模块 并二次创新ResNetLayer
RT-DETR改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
RT-DETR改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
69 4
RT-DETR改进策略【注意力机制篇】| 引入Shuffle Attention注意力模块,增强特征图的语义表示
RT-DETR改进策略【注意力机制篇】| NAM 即插即用模块,重新优化通道和空间注意力(含HGBlock二次创新)
RT-DETR改进策略【注意力机制篇】| NAM 即插即用模块,重新优化通道和空间注意力(含HGBlock二次创新)
88 1
RT-DETR改进策略【注意力机制篇】| NAM 即插即用模块,重新优化通道和空间注意力(含HGBlock二次创新)
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
63 1
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)