一、本文介绍
本文记录的是基于MCA注意力模块的RT-DETR目标检测改进方法研究。普通的轴向注意力难以实现长距离交互,不利于捕获分割任务中所需的空间结构或形状,而MCA注意力
==模块通过构建了两个并行轴向注意力之间的交互,更有效地利用多尺度特征和全局上下文==,在改进RT-DETR
的过程中,能够契合目标形态,更有效的获取目标的全局信息。
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、MCANet原理
MCANet
:基于多尺度交叉轴关注的医学图像分割
MCANet(Medical Image Segmentation with Multi - Scale Cross - Axis Attention)
是一种用于医学图像分割的网络,其核心组件是多尺度交叉轴注意力(Multi - Scale Cross - Axis Attention,MCA)
。
2.1 MCA的原理:
- 回顾轴向注意力:
- 轴向注意力将自注意力分解为两个部分,分别负责沿水平或垂直维度计算自注意力,基于此,
Axial - DeepLab
可沿水平和垂直方向依次聚合特征,使捕获全局信息成为可能。 - 轴向注意力比自注意力更高效,计算复杂度从$O(HW \times HW)$降低到$O(HW \times (H + W))$。
- 但在许多医学图像分割任务中,数据集相对较小,轴向注意力难以实现长距离交互,不利于捕获分割任务中所需的空间结构或形状。
- 轴向注意力将自注意力分解为两个部分,分别负责沿水平或垂直维度计算自注意力,基于此,
- 多尺度交叉轴注意力:
MCA
结构分为两个并行分支,分别计算水平和垂直轴向注意力,每个分支由三个不同核大小的1D卷积组成,用于沿一个空间维度编码多尺度上下文信息,随后通过交叉轴注意力沿另一个空间维度聚合特征。- 以顶部分支为例,给定特征图$F$(编码器最后三个阶段特征图的组合),使用三个并行的1D卷积对其进行编码,输出通过求和融合并送入一个$1\times1$卷积,公式为$F{x} = Conv{1\times1}\left(\sum{i = 0}^{2}Conv1D{i}^{x}(Norm(F))\right)$,其中$Conv1D{i}^{x}(\cdot)$表示沿$x$轴维度的1D卷积,$Norm(\cdot)$是层归一化,$F{x}$是输出。对于1D卷积的核大小,设置为$1\times7$、$1\times11$和$1\times21$。底部分支的输出$F_{y}$可通过类似方式得到。
- 对于顶部分支的$F{x}$,将其送入$y$轴注意力,为更好地利用来自两个空间方向的多尺度卷积特征,计算$F{x}$和$F{y}$之间的交叉注意力,具体将$F{x}$作为键和值矩阵,$F{y}$作为查询矩阵,计算过程为$F{T} = MHCA{y}(F{y}, F{x}, F{x})$,其中$MHCA{y}(\cdot, \cdot, \cdot)$表示沿$x$轴的多头交叉注意力。底部分支以类似方式编码沿$y$轴方向的上下文,即$F{B} = MHCA{x}(F{x}, F{y}, F{y})$,其中$MHCA_{x}(\cdot, \cdot, \cdot)$表示沿$y$轴的多头交叉注意力。
MCA
的输出为$F{out} = Conv{1\times1}(F{T}) + Conv{1\times1}(F_{B}) + F$。
2.2 MCA的优势:
- 引入轻量级多尺度卷积:处理病变区域或器官各种大小和形状的有效方式。
- 创新的注意力机制:与大多数以前的工作不同,
MCA
不直接应用轴向注意力来捕获全局上下文,而是构建两个并行轴向注意力之间的交互,更有效地利用多尺度特征和全局上下文。 - 解码器轻量级:微小型号的模型参数数量仅为$0.14M$,更适合实际应用场景。
论文:https://arxiv.org/pdf/2312.08866v1
源码:https://github.com/haoshao-nku/medical_seg
三、实现代码及RT-DETR修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: