YOLOv11改进策略【注意力机制篇】| 2023 MCAttention 多尺度交叉轴注意力 获取多尺度特征和全局上下文信息

简介: YOLOv11改进策略【注意力机制篇】| 2023 MCAttention 多尺度交叉轴注意力 获取多尺度特征和全局上下文信息

一、本文介绍

本文记录的是基于MCA注意力模块的YOLOv11目标检测改进方法研究。普通的轴向注意力难以实现长距离交互,不利于捕获分割任务中所需的空间结构或形状,而MCA注意力==模块通过构建了两个并行轴向注意力之间的交互,更有效地利用多尺度特征和全局上下文==,在改进YOLOv11的过程中,能够契合目标形态,更有效的获取目标的全局信息。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、MCANet原理

MCANet:基于多尺度交叉轴关注的医学图像分割

MCANet(Medical Image Segmentation with Multi - Scale Cross - Axis Attention)是一种用于医学图像分割的网络,其核心组件是多尺度交叉轴注意力(Multi - Scale Cross - Axis Attention,MCA)

2.1 MCA的原理:

  1. 回顾轴向注意力
    • 轴向注意力将自注意力分解为两个部分,分别负责沿水平或垂直维度计算自注意力,基于此,Axial - DeepLab可沿水平和垂直方向依次聚合特征,使捕获全局信息成为可能。
    • 轴向注意力比自注意力更高效,计算复杂度从$O(HW \times HW)$降低到$O(HW \times (H + W))$。
    • 但在许多医学图像分割任务中,数据集相对较小,轴向注意力难以实现长距离交互,不利于捕获分割任务中所需的空间结构或形状。
  2. 多尺度交叉轴注意力
    • MCA结构分为两个并行分支,分别计算水平和垂直轴向注意力,每个分支由三个不同核大小的1D卷积组成,用于沿一个空间维度编码多尺度上下文信息,随后通过交叉轴注意力沿另一个空间维度聚合特征。
    • 以顶部分支为例,给定特征图$F$(编码器最后三个阶段特征图的组合),使用三个并行的1D卷积对其进行编码,输出通过求和融合并送入一个$1\times1$卷积,公式为$F{x} = Conv{1\times1}\left(\sum{i = 0}^{2}Conv1D{i}^{x}(Norm(F))\right)$,其中$Conv1D{i}^{x}(\cdot)$表示沿$x$轴维度的1D卷积,$Norm(\cdot)$是层归一化,$F{x}$是输出。对于1D卷积的核大小,设置为$1\times7$、$1\times11$和$1\times21$。底部分支的输出$F_{y}$可通过类似方式得到。
    • 对于顶部分支的$F{x}$,将其送入$y$轴注意力,为更好地利用来自两个空间方向的多尺度卷积特征,计算$F{x}$和$F{y}$之间的交叉注意力,具体将$F{x}$作为键和值矩阵,$F{y}$作为查询矩阵,计算过程为$F{T} = MHCA{y}(F{y}, F{x}, F{x})$,其中$MHCA{y}(\cdot, \cdot, \cdot)$表示沿$x$轴的多头交叉注意力。底部分支以类似方式编码沿$y$轴方向的上下文,即$F{B} = MHCA{x}(F{x}, F{y}, F{y})$,其中$MHCA_{x}(\cdot, \cdot, \cdot)$表示沿$y$轴的多头交叉注意力。
    • MCA的输出为$F{out} = Conv{1\times1}(F{T}) + Conv{1\times1}(F_{B}) + F$。

在这里插入图片描述

2.2 MCA的优势:

  1. 引入轻量级多尺度卷积:处理病变区域或器官各种大小和形状的有效方式。
  2. 创新的注意力机制:与大多数以前的工作不同,MCA不直接应用轴向注意力来捕获全局上下文,而是构建两个并行轴向注意力之间的交互,更有效地利用多尺度特征和全局上下文。
  3. 解码器轻量级:微小型号的模型参数数量仅为$0.14M$,更适合实际应用场景。

论文:https://arxiv.org/pdf/2312.08866v1
源码:https://github.com/haoshao-nku/medical_seg

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142656607

相关文章
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
3945 0
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
2840 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
YOLOv11改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
4256 2
YOLOv11改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| 2024 PPA 并行补丁感知注意模块,提高小目标关注度
YOLOv11改进策略【注意力机制篇】| 2024 PPA 并行补丁感知注意模块,提高小目标关注度
736 11
YOLOv11改进策略【注意力机制篇】| 2024 PPA 并行补丁感知注意模块,提高小目标关注度
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
860 1
YOLOv11改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
1088 1
YOLOv11改进策略【注意力机制篇】| GAM全局注意力机制: 保留信息以增强通道与空间的相互作用
|
计算机视觉
YOLOv11改进策略【损失函数篇】| Shape-IoU:考虑边界框形状和尺度的更精确度量
YOLOv11改进策略【损失函数篇】| Shape-IoU:考虑边界框形状和尺度的更精确度量
1496 4
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
982 12
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
RT-DETR改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
551 1
RT-DETR改进策略【注意力机制篇】| 2024 蒙特卡罗注意力(MCAttn)模块,提高小目标的关注度
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【损失函数篇】| WIoU v3:针对低质量样本的边界框回归损失函数
YOLOv11改进策略【损失函数篇】| WIoU v3:针对低质量样本的边界框回归损失函数
2846 6