YOLOv11改进 - C3k2融合 | C3k2融合 IIA信息整合注意力(Information Integration Attention )平衡精度与计算成本 | TGRS2025

简介: 本文提出信息整合注意力(IIA)机制,融合通道拼接、双方向池化与轻量1D卷积,精准捕捉遥感图像空间关系,抑制噪声,平衡精度与效率。集成于YOLOv11后显著提升分割性能。

前言

本文提出信息整合注意力(IIA)机制,并将其集成到YOLOv11中用于遥感图像语义分割。传统CNN和Transformer方法分别存在难以捕捉全局信息和计算复杂的问题,现有基于Mamba的方法也未充分考虑局部信息。IIA机制利用图像特征空间位置不变性,通过基础信息融合、双方向序列提取和动态权重调制三个核心步骤,以及通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合四个关键操作,实现了轻量与精准的平衡。我们将IIA集成到YOLOv11的C3k2模块中。实验表明,改进后的YOLOv11在多个数据集上提高了精度,且运行高效。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20251223215226508

摘要

在遥感图像语义分割领域,基于卷积神经网络(CNNs)和Transformer的方法已得到广泛研究。然而,由于CNN的局部特征提取特性,其难以捕捉全局上下文信息,而Transformer则受限于二次计算的复杂性。近年来,基于Mamba的状态空间模型引发了大量关注。但现有的基于Mamba的方法在遥感图像分割任务中,未能充分考虑局部信息的重要性。本文构建了一种编解码风格的网络UMFormer,用于遥感图像的语义分割。具体而言,UMFormer采用ResNet18作为编码器,旨在进行初步的图像特征提取。随后,对自注意力机制进行优化,以在多尺度条件下提取不同大小目标的全局信息。为了融合编解码器的特征图信息,构建了另一种注意力结构,用于重建空间信息并捕捉相对位置关系。最后,设计了一个基于Mamba的解码器,以有效对全局和局部信息进行建模。同时,设计了一种利用特征相似性的特征融合机制,目的是将局部信息嵌入到全局信息中。在无人机影像数据集(UAVid)、Vaihingen和Potsdam数据集上进行的大量实验表明,所提出的UMFormer在保持高效运行速度的同时,还提高了精度。相关代码将在以下网址免费公开:https://github.com/takeyoutime/UMFormer

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

信息整合注意力(Information Integration Attention, IIA)是一种为解决编码器-解码器架构中特征融合痛点设计的轻量级注意力机制,核心创新围绕“精准保留空间位置信息、高效抑制噪声干扰、平衡精度与计算成本”展开。

一、核心逻辑:基于“空间位置不变性”的双方向动态调制

IIA的核心创新逻辑源于对“图像特征空间位置不变性”的利用——即同一目标在图像中的相对位置关系(如“车辆在道路上”“窗户在建筑立面”)具有稳定性,可通过捕捉这种关系强化有效特征、过滤噪声。其本质是“先融合信息→再分方向提取关键序列→最后动态加权增强” 的三阶段递进式处理,具体逻辑链如下:

  1. 基础信息融合:先将编码器的局部特征与解码器的全局特征拼接,形成“多尺度信息池”,确保不丢失原始特征细节;
  2. 双方向序列提取:针对特征图的“高度”和“宽度”两个空间维度,分别提取序列信息(类比人类观察图像时“先看上下范围、再看左右范围”),全面捕捉空间位置关联;
  3. 动态权重调制:为两个方向的序列信息生成“注意力权重因子”,对目标区域赋予高权重(强化关键特征)、对噪声区域赋予低权重(抑制干扰),最后通过残差融合保留基础信息,输出增强后的特征。

二、关键操作创新:四大环节实现“轻量+精准”的平衡

IIA通过四步核心操作落地上述逻辑,每一步均包含针对性创新,既保证效果又控制计算成本:

1. 特征融合环节:通道级拼接,保留多尺度信息完整性

  • 传统问题:传统特征融合常采用“元素相加”或“简单卷积压缩”,易导致局部细节或全局语义丢失(如相加时高层级特征覆盖低层级特征);
  • IIA创新:将编码器输出的局部特征图(如尺寸为C×H×W,C为通道数、H为高度、W为宽度)与解码器输出的全局特征图,按“通道维度”直接拼接,形成新的融合特征图(尺寸为2C×H×W)。这种方式能完整保留两种特征的原始信息,为后续空间位置提取奠定基础,且仅增加通道数、不引入额外计算量。

2. 特征重塑与信息提取环节:双方向拆分+池化组合,精准捕捉空间关系

这是IIA最核心的创新环节之一,通过“拆分维度+双池化”解决传统注意力“全局笼统处理”的缺陷:

  • 步骤1:双方向特征重塑
    将融合特征图拆分为两个独立的“方向特征”:

    • 聚焦“高度方向”:将特征图重塑为“宽度×通道×高度”(W×C×H)的形态,专门捕捉上下方向的位置关系(如“建筑顶部与底部的相对位置”);
    • 聚焦“宽度方向”:将特征图重塑为“高度×通道×宽度”(H×C×W)的形态,专门捕捉左右方向的位置关系(如“道路左侧与右侧的车辆分布”)。
      这种拆分使注意力不再“全局平均用力”,而是针对两个空间维度分别优化,提升位置信息捕捉精度。
  • 步骤2:双池化提取序列信息
    对每个方向的特征图,沿“非目标维度”(高度方向特征沿宽度维度池化、宽度方向特征沿高度维度池化)同时执行平均池化最大池化

    • 平均池化:提取“全局趋势信息”(如整个高度方向的特征分布规律),避免局部噪声干扰;
    • 最大池化:提取“局部显著信息”(如高度方向上的目标峰值特征,如建筑边缘的强响应),突出关键细节。
      两种池化结果拼接后,每个方向的序列信息既包含全局规律、又涵盖局部细节,解决了传统单池化“要么丢全局、要么丢局部”的问题。

3. 注意力调制因子生成环节:轻量级1D卷积,控制计算成本

  • 传统问题:传统注意力(如自注意力)用全连接层生成权重,计算量随特征尺寸呈O(n²)增长;
  • IIA创新:采用1D卷积(核大小为7) 处理双池化后的序列信息:
    • 1D卷积更适配“序列信息”(如高度方向的特征序列),能有效捕捉相邻位置的关联(如“某行特征与上下几行的依赖关系”),且计算量仅为2D卷积的1/H或1/W(H、W为特征图尺寸);
    • 卷积后通过“1D批归一化”稳定训练(避免梯度波动),再用“Sigmoid激活函数”将输出压缩到0-1区间,生成“高度方向调制因子”和“宽度方向调制因子”——因子值越接近1,代表对应位置的特征越重要(如目标区域);越接近0,代表该位置为噪声或干扰(如背景纹理)。

4. 特征增强与输出环节:残差融合,平衡增强与信息保留

  • 传统问题:传统注意力直接用权重因子加权特征,易丢失原始信息(如权重过小导致有效特征被过度抑制);
  • IIA创新:采用“残差融合”策略:
    1. 先将高度、宽度方向的调制因子分别与原始融合特征图进行“逐元素相乘”,得到两个方向的“增强特征”(目标区域被放大、噪声被削弱);
    2. 再将这两个增强特征与原始融合特征图进行“逐元素相加”(残差连接),确保既保留原始特征的基础信息,又叠加注意力增强的效果。
      这种方式避免了“过度增强”或“信息丢失”,让输出特征同时具备“精准定位”和“强判别性”。

核心代码

class IIA(nn.Module):
    def __init__(self, channel):
        super(IIA, self).__init__()
        self.attention = AttentionWeight(channel)

    def forward(self, x):
        # b, w, c, h
        x_h = x.permute(0, 3, 1, 2).contiguous()
        x_h = self.attention(x_h).permute(0, 2, 3, 1)
        # b, h, c, w
        x_w = x.permute(0, 2, 1, 3).contiguous()
        x_w = self.attention(x_w).permute(0, 2, 1, 3)
        # b, c, h, w
        # x_c = self.attention(x)

        # return x + 1 / 2 * (x_h + x_w)  # 89.8    92.5    81.9
        return x + x_h + x_w

前言

本文提出信息整合注意力(IIA)机制,并将其集成到YOLOv11中用于遥感图像语义分割。传统CNN和Transformer方法分别存在难以捕捉全局信息和计算复杂的问题,现有基于Mamba的方法也未充分考虑局部信息。IIA机制利用图像特征空间位置不变性,通过基础信息融合、双方向序列提取和动态权重调制三个核心步骤,以及通道级拼接、双方向拆分与池化、轻量级1D卷积和残差融合四个关键操作,实现了轻量与精准的平衡。我们将IIA集成到YOLOv11的C3k2模块中。实验表明,改进后的YOLOv11在多个数据集上提高了精度,且运行高效。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20251223215226508

摘要

在遥感图像语义分割领域,基于卷积神经网络(CNNs)和Transformer的方法已得到广泛研究。然而,由于CNN的局部特征提取特性,其难以捕捉全局上下文信息,而Transformer则受限于二次计算的复杂性。近年来,基于Mamba的状态空间模型引发了大量关注。但现有的基于Mamba的方法在遥感图像分割任务中,未能充分考虑局部信息的重要性。本文构建了一种编解码风格的网络UMFormer,用于遥感图像的语义分割。具体而言,UMFormer采用ResNet18作为编码器,旨在进行初步的图像特征提取。随后,对自注意力机制进行优化,以在多尺度条件下提取不同大小目标的全局信息。为了融合编解码器的特征图信息,构建了另一种注意力结构,用于重建空间信息并捕捉相对位置关系。最后,设计了一个基于Mamba的解码器,以有效对全局和局部信息进行建模。同时,设计了一种利用特征相似性的特征融合机制,目的是将局部信息嵌入到全局信息中。在无人机影像数据集(UAVid)、Vaihingen和Potsdam数据集上进行的大量实验表明,所提出的UMFormer在保持高效运行速度的同时,还提高了精度。相关代码将在以下网址免费公开:https://github.com/takeyoutime/UMFormer

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

信息整合注意力(Information Integration Attention, IIA)是一种为解决编码器-解码器架构中特征融合痛点设计的轻量级注意力机制,核心创新围绕“精准保留空间位置信息、高效抑制噪声干扰、平衡精度与计算成本”展开。

一、核心逻辑:基于“空间位置不变性”的双方向动态调制

IIA的核心创新逻辑源于对“图像特征空间位置不变性”的利用——即同一目标在图像中的相对位置关系(如“车辆在道路上”“窗户在建筑立面”)具有稳定性,可通过捕捉这种关系强化有效特征、过滤噪声。其本质是“先融合信息→再分方向提取关键序列→最后动态加权增强” 的三阶段递进式处理,具体逻辑链如下:

  1. 基础信息融合:先将编码器的局部特征与解码器的全局特征拼接,形成“多尺度信息池”,确保不丢失原始特征细节;
  2. 双方向序列提取:针对特征图的“高度”和“宽度”两个空间维度,分别提取序列信息(类比人类观察图像时“先看上下范围、再看左右范围”),全面捕捉空间位置关联;
  3. 动态权重调制:为两个方向的序列信息生成“注意力权重因子”,对目标区域赋予高权重(强化关键特征)、对噪声区域赋予低权重(抑制干扰),最后通过残差融合保留基础信息,输出增强后的特征。

二、关键操作创新:四大环节实现“轻量+精准”的平衡

IIA通过四步核心操作落地上述逻辑,每一步均包含针对性创新,既保证效果又控制计算成本:

1. 特征融合环节:通道级拼接,保留多尺度信息完整性

  • 传统问题:传统特征融合常采用“元素相加”或“简单卷积压缩”,易导致局部细节或全局语义丢失(如相加时高层级特征覆盖低层级特征);
  • IIA创新:将编码器输出的局部特征图(如尺寸为C×H×W,C为通道数、H为高度、W为宽度)与解码器输出的全局特征图,按“通道维度”直接拼接,形成新的融合特征图(尺寸为2C×H×W)。这种方式能完整保留两种特征的原始信息,为后续空间位置提取奠定基础,且仅增加通道数、不引入额外计算量。

2. 特征重塑与信息提取环节:双方向拆分+池化组合,精准捕捉空间关系

这是IIA最核心的创新环节之一,通过“拆分维度+双池化”解决传统注意力“全局笼统处理”的缺陷:

  • 步骤1:双方向特征重塑
    将融合特征图拆分为两个独立的“方向特征”:

    • 聚焦“高度方向”:将特征图重塑为“宽度×通道×高度”(W×C×H)的形态,专门捕捉上下方向的位置关系(如“建筑顶部与底部的相对位置”);
    • 聚焦“宽度方向”:将特征图重塑为“高度×通道×宽度”(H×C×W)的形态,专门捕捉左右方向的位置关系(如“道路左侧与右侧的车辆分布”)。
      这种拆分使注意力不再“全局平均用力”,而是针对两个空间维度分别优化,提升位置信息捕捉精度。
  • 步骤2:双池化提取序列信息
    对每个方向的特征图,沿“非目标维度”(高度方向特征沿宽度维度池化、宽度方向特征沿高度维度池化)同时执行平均池化最大池化

    • 平均池化:提取“全局趋势信息”(如整个高度方向的特征分布规律),避免局部噪声干扰;
    • 最大池化:提取“局部显著信息”(如高度方向上的目标峰值特征,如建筑边缘的强响应),突出关键细节。
      两种池化结果拼接后,每个方向的序列信息既包含全局规律、又涵盖局部细节,解决了传统单池化“要么丢全局、要么丢局部”的问题。

3. 注意力调制因子生成环节:轻量级1D卷积,控制计算成本

  • 传统问题:传统注意力(如自注意力)用全连接层生成权重,计算量随特征尺寸呈O(n²)增长;
  • IIA创新:采用1D卷积(核大小为7) 处理双池化后的序列信息:
    • 1D卷积更适配“序列信息”(如高度方向的特征序列),能有效捕捉相邻位置的关联(如“某行特征与上下几行的依赖关系”),且计算量仅为2D卷积的1/H或1/W(H、W为特征图尺寸);
    • 卷积后通过“1D批归一化”稳定训练(避免梯度波动),再用“Sigmoid激活函数”将输出压缩到0-1区间,生成“高度方向调制因子”和“宽度方向调制因子”——因子值越接近1,代表对应位置的特征越重要(如目标区域);越接近0,代表该位置为噪声或干扰(如背景纹理)。

4. 特征增强与输出环节:残差融合,平衡增强与信息保留

  • 传统问题:传统注意力直接用权重因子加权特征,易丢失原始信息(如权重过小导致有效特征被过度抑制);
  • IIA创新:采用“残差融合”策略:
    1. 先将高度、宽度方向的调制因子分别与原始融合特征图进行“逐元素相乘”,得到两个方向的“增强特征”(目标区域被放大、噪声被削弱);
    2. 再将这两个增强特征与原始融合特征图进行“逐元素相加”(残差连接),确保既保留原始特征的基础信息,又叠加注意力增强的效果。
      这种方式避免了“过度增强”或“信息丢失”,让输出特征同时具备“精准定位”和“强判别性”。

核心代码

class IIA(nn.Module):
    def __init__(self, channel):
        super(IIA, self).__init__()
        self.attention = AttentionWeight(channel)

    def forward(self, x):
        # b, w, c, h
        x_h = x.permute(0, 3, 1, 2).contiguous()
        x_h = self.attention(x_h).permute(0, 2, 3, 1)
        # b, h, c, w
        x_w = x.permute(0, 2, 1, 3).contiguous()
        x_w = self.attention(x_w).permute(0, 2, 1, 3)
        # b, c, h, w
        # x_c = self.attention(x)

        # return x + 1 / 2 * (x_h + x_w)  # 89.8    92.5    81.9
        return x + x_h + x_w

image.png

相关文章
|
6月前
|
机器学习/深度学习 人工智能 监控
YOLOv11 改进 - 主干网络| 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测
Mamba YOLO提出将状态空间模型(SSM)引入实时目标检测,融合YOLO架构优势,实现“又快又准”。其通过ODMamba骨干网络解决自注意力二次复杂度问题,无需预训练;设计RG块增强局部细节建模,提升定位精度;结合多尺度融合策略,在COCO上小模型达1.5毫秒推理、mAP提升7.5%,兼顾高效与性能。
YOLOv11 改进 - 主干网络| 集成Mamba-YOLO(AAAI 2025),Mamba-YOLOv11-T 替换骨干,破解全局依赖建模难题,实现高效实时检测
|
计算机视觉
如何理解focal loss/GIOU(yolo改进损失函数)
如何理解focal loss/GIOU(yolo改进损失函数)
|
6月前
|
机器学习/深度学习 算法 索引
YOLOv11改进 - 卷积Conv | 加权卷积wConv:无损替换标准卷积,增强空间建模与特征提取质量
本文提出加权卷积(wConv),通过引入距离感知的密度函数,自适应调整邻域像素权重,突破传统卷积等权局限。结合双优化器策略,在不增加参数量的前提下提升特征提取能力。集成于YOLOv11后显著降低损失、提高检测精度,适用于图像去噪等密集预测任务。
|
6月前
|
机器学习/深度学习 算法 atlas
YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
本文提出将蒙特卡洛注意力(MCAttn)模块融入YOLOv11,通过随机采样多尺度池化特征并加权融合,增强模型对小目标的敏感性。MCAttn兼顾局部细节与全局上下文,提升检测精度,尤其适用于医学图像中小面积病灶识别,显著改善特征丢失问题,且保持轻量化与高效推理。
YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题
|
6月前
|
机器学习/深度学习 算法 数据挖掘
YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
本文提出收缩-广播自注意力(CBSA),通过选取代表性token进行收缩计算并广播结果,实现高效、可解释的线性复杂度注意力机制。其逻辑透明,统一多种注意力形式,并集成至YOLOv11的C3k2模块,在视觉任务中展现优越性能与速度优势。
YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
|
5月前
|
机器学习/深度学习 移动开发 编解码
YOLO26 改进 - C2PSA | C2PSA融合MSLA多尺度线性注意力:并行多分支架构融合上下文语义,提升特征判别力 | Arxiv 2025
本文提出多尺度线性注意力机制MSLA,通过并行3×3/5×5/7×7/9×9深度卷积提取多尺度特征,结合低复杂度线性注意力(O(N)),兼顾细粒度局部细节与全局长程依赖。将其集成至YOLO26,构建C2PSA_MSLA模块,在医学图像分割与目标检测任务中显著提升性能、效率与鲁棒性。(239字)
YOLO26 改进 - C2PSA | C2PSA融合MSLA多尺度线性注意力:并行多分支架构融合上下文语义,提升特征判别力 | Arxiv 2025
|
6月前
|
机器学习/深度学习 编解码 机器人
YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
本文提出MaskAttn-UNet,融合卷积效率与注意力全局视野,通过可学习掩码选择性关注关键区域,提升低分辨率图像分割精度。模块集成至YOLOv11,兼顾性能与效率,适用于资源受限场景,在多任务中表现优异。
YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力,可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【Head】| ASFF 自适应空间特征融合模块,改进检测头Detect_ASFF
YOLOv11改进策略【Head】| ASFF 自适应空间特征融合模块,改进检测头Detect_ASFF
2573 13
YOLOv11改进策略【Head】| ASFF 自适应空间特征融合模块,改进检测头Detect_ASFF
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
4144 0
|
机器学习/深度学习 存储 TensorFlow
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
3263 11
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头