SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读

简介: 我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。

12313d4c5d25436da8a27736d51ab9a0.png


code:Visual-Attention-Network/SegNeXt: Official Pytorch implementations for “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation” (NeurIPS 2022) (github.com)


paper:2209.08575.pdf (arxiv.org)


该文章被 NeurIPS 2022收录。


664aeb9c2b964ccaacee7d7de432252f.png


6b2989f871214885a92c217108b51637.png


摘要


我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。我们的SegNeXt在流行的基准测试(包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID)上大大提高了以前最先进的方法的性能。值得注意的是,SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN,在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言,与ADE20K数据集上的最先进方法相比,SegNeXt在相同或更少的计算下实现了约2.0%的mIoU改进。


简介


作者认为一个成功的语义分割模型应该具有以下特征:(i)作为编码器的强大骨干网络。与以前基于CNN的模型相比,基于transformer的模型的性能改进主要来自于更强的主干网络。(ii)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集预测任务,因此需要处理单个图像中不同大小的对象。(iii)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(iv)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤为重要。


作者在这篇文章的主要贡献:


  • 确定了一个好的语义分割模型应该具有的特征,并提出了一种新的定制网络架构,称为SegNeXt,通过多尺度卷积特征唤起空间关注。


  • 具有简单和轻量的卷积的编码器仍然可以比视觉变换器更好地执行,尤其是在处理对象细节时,同时它需要更少的计算成本。


  • 在各种分割基准上大大提高了最先进的语义分割方法的性能,包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID。


方法


1317c30e441f4ccb87a5ba46b10534ac.png


3.1 卷积encoder


作者在之前的大多数工作之后,对编码器采用金字塔结构。对于编码器中的构建块,采用了与ViT似的结构,但不同的是,我们没有使用self-attention,而是设计了一个新的多尺度卷积注意力(MSCA)模块。如图2(a)所示,MSCA包含三个部分:用于聚合局部信息的深度方向卷积、用于捕获多尺度上下文的多分支深度方向条带卷积以及用于建模不同信道之间关系的1×1卷积。1×1卷积的输出直接用作注意力权重,以重新加权MSCA的输入。


数学上,我们的MSCA可以写成:


image.png


其中F 代表的是输入特征。⊗ 是逐个元素的矩阵分解。DW−conv是深度可分离卷积。请注意,在MSCAN的每个构建块中,我们使用batch normalization而不是layer normalization,因为我们发现batch normalization在分割性能方面获得了更好的效果。


6b387906f6e4402d9399f8ec0a6aa12c.png


3.2 decoder


e0244e91aabc4375b8b5c89bc0b070da.png


作者讲述了目前主流的语义分割网络decoder结构,如上图3所示。作者采用c这种方式,效果好、参数少。


实验结果


a7edebad768f42f7b8c03950bbe3ab1e.png

b4712e035784489ab70a45b0249cbb4e.png

a7ddbfd5b60a46eda3a066ebcf4b1b0e.png

550648be9115472694408f4b139f1373.png


总结


在本文中,作者分析了以前成功的分割模型,并发现了它们所具有的良好效果。基于这些发现,作者提出了一个量身定制的卷积注意力模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。


最近,基于transformer的模型已经主导了各种细分排行榜。相反,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


4a80247a29554079b5dc64a56b77e838.png

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
视觉 注意力机制——通道注意力、空间注意力、自注意力
本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。
13523 58
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
3316 0
|
机器学习/深度学习 测试技术 网络架构
【YOLOv8改进】MSCA: 多尺度卷积注意力 (论文笔记+引入代码).md
SegNeXt是提出的一种新的卷积网络架构,专注于语义分割任务,它证明了卷积注意力在编码上下文信息上优于自注意力机制。该模型通过结合深度卷积、多分支深度卷积和1x1逐点卷积实现高效性能提升。在多个基准测试中,SegNeXt超越了现有最佳方法,如在Pascal VOC 2012上达到90.6%的mIoU,参数量仅为EfficientNet-L2 w/ NAS-FPN的1/10。此外,它在ADE20K数据集上的mIoU平均提高了2.0%,同时保持相同的计算量。YOLOv8中引入了名为MSCAAttention的模块,以利用这种多尺度卷积注意力机制。更多详情和配置可参考相关链接。
|
11月前
|
编解码 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
1728 7
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
3239 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
20916 0
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet :通过低成本操作获得更多特征 (论文笔记+引入代码).md
YOLO目标检测专栏探讨了卷积神经网络的创新改进,如Ghost模块,它通过低成本运算生成更多特征图,降低资源消耗,适用于嵌入式设备。GhostNet利用Ghost模块实现轻量级架构,性能超越MobileNetV3。此外,文章还介绍了SegNeXt,一个高效卷积注意力网络,提升语义分割性能,参数少但效果优于EfficientNet-L2。专栏提供YOLO相关基础解析、改进方法和实战案例。
|
机器学习/深度学习 数据可视化 PyTorch
深度学习之如何使用Grad-CAM绘制自己的特征提取图-(Pytorch代码,详细注释)神经网络可视化-绘制自己的热力图
深度学习之如何使用Grad-CAM绘制自己的特征提取图-(Pytorch代码,详细注释)神经网络可视化-绘制自己的热力图
深度学习之如何使用Grad-CAM绘制自己的特征提取图-(Pytorch代码,详细注释)神经网络可视化-绘制自己的热力图