RT-DETR改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含HGBlock二次创新)

简介: RT-DETR改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含HGBlock二次创新)

一、本文介绍

本文记录的是利用SeaFormer++模型中提出的Sea_Attention模块优化RT-DETR的目标检测网络模型Sea_Attention利用挤压轴向注意力有效地提取全局语义信息,并通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。本文将其加入到RT-DETR的不同位置中,使模型能够在不引入过多计算开销的情况下聚合空间信息。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、混合局部通道注意力介绍

SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition

2.1 出发点

传统的全局自注意力机制在处理高分辨率图像时计算成本和内存需求高,不适合移动设备。为了解决这个问题,需要设计一种高效的注意力模块,既能提取全局语义信息,又能保持较低的计算复杂度和内存占用,同时还要能补充局部细节信息,以满足移动设备上的语义分割任务需求。

2.2 原理

2.2.1 Squeeze Axial attention(挤压轴向注意力)

  • 通过自适应地将输入特征图在水平和垂直方向上进行挤压操作,将每个轴上的所有标记映射到一个单一的标记,从而以一种自适应的方式将全局信息保留在单个轴上。
    • 在水平方向上,使用可学习的掩码将查询的所有标记映射到每行的一个单一标记;在垂直方向上同理。这样可以大大降低计算复杂度。
    • 同时,为了使挤压后的轴向注意力具有位置感知能力,引入位置嵌入,使得挤压后的查询和键能够感知到它们在挤压后的轴向特征中的位置。

在这里插入图片描述

2.2.2 Detail enhancement kernel(细节增强核)

  • 由于挤压操作会牺牲局部细节,因此使用一个基于卷积的辅助核来增强空间细节。
  • 首先从输入特征图中获取查询、键和值,并在通道维度上进行拼接,然后通过一个由3×3深度可分离卷积和批量归一化组成的块来聚合辅助局部细节。
  • 最后通过一个线性投影和激活函数以及批量归一化将维度压缩到指定维度,并生成细节增强权重,与挤压轴向注意力得到的特征进行融合。

在这里插入图片描述

2.3 结构

2.3.1 Squeeze Axial attention部分

  • 包括水平和垂直方向的挤压操作,以及相应的位置嵌入
  • 对于水平方向,计算$q{(h)}=\frac{1}{W}\left(q^{\to\left(H, C{qk}, W\right)} A{W}^{\to(H, W, 1)}\right)^{\to\left(H, C{qk}\right)}$,其中$q$是从输入特征图$x$通过线性投影得到的查询,$A{W}$是可学习的掩码,通过在输入特征图上应用1×1卷积和批量归一化层得到。垂直方向同理计算$q{(v)}$。
  • 位置嵌入通过从可学习参数线性插值得到,分别为$r{(h)}^{q}, r{(h)}^{k} \in \mathbb{R}^{H ×C{qk}}$和$r{(v)}^{q}, r{(v)}^{k} \in \mathbb{R}^{W ×C{qk}}$,并应用到相应的挤压后的查询和键上。

    2.3.2 Detail enhancement kernel部分

  • 从输入特征图(x)通过另一组线性投影获取查询、键和值$W{q}^{(e)}, W{k}^{(e)} \in \mathbb{R}^{C{qk} ×C}, W{v}^{(e)} \in \mathbb{R}^{C_{v} ×C}$,然后在通道维度上拼接并通过3×3深度可分离卷积和批量归一化块,再经过线性投影、激活函数和批量归一化得到细节增强权重,与挤压轴向注意力的结果融合。

在这里插入图片描述

2.4 优势

  • 计算高效:通过挤压轴向注意力将计算复杂度从$O((H + W)HW)$降低到$O(HW)$,同时通过自适应的挤压和扩展操作,在不引入过多计算开销的情况下聚合空间信息。
  • 有效提取全局和局部信息:既能通过挤压轴向注意力有效地提取全局语义信息,又能通过细节增强核补充局部细节,优化了Transformer块的特征提取能力。
  • 适合移动设备:只包含卷积、池化、矩阵乘法等移动设备友好的操作,在移动设备上能够实现高效的语义分割。

论文:https://arxiv.org/pdf/2301.13156
源码: https://github.com/fudan-zvg/SeaFormer

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144141018

相关文章
|
10月前
|
机器学习/深度学习 数据可视化 算法
RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
738 5
|
10月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
875 10
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
|
10月前
|
机器学习/深度学习 计算机视觉 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
405 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
|
10月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
467 1
RT-DETR改进策略【注意力机制篇】| EMA 即插即用模块,提高远距离建模依赖(含二次创新)
|
10月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
801 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
10月前
RT-DETR改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
RT-DETR改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
583 0
RT-DETR改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
|
10月前
|
计算机视觉
RT-DETR改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
RT-DETR改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
391 17
RT-DETR改进策略【Neck】| TPAMI 2024 FreqFusion 频域感知特征融合模块 解决密集图像预测问题
|
10月前
|
知识图谱
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
337 12
RT-DETR改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新AIFI)
|
10月前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
782 12
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
|
10月前
|
机器学习/深度学习 计算机视觉 知识图谱
RT-DETR改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
RT-DETR改进策略【注意力机制篇】| SENet V2 优化SE注意力机制,聚合通道和全局信息
373 2