SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读

2023-08-01 754

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们提出了SegNeXt，一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中，我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。

code:Visual-Attention-Network/SegNeXt: Official Pytorch implementations for “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation” (NeurIPS 2022) (github.com)

paper：2209.08575.pdf (arxiv.org)

该文章被 NeurIPS 2022收录。

摘要

我们提出了SegNeXt，一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中，我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性，我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。我们的SegNeXt在流行的基准测试（包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID）上大大提高了以前最先进的方法的性能。值得注意的是，SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN，在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言，与ADE20K数据集上的最先进方法相比，SegNeXt在相同或更少的计算下实现了约2.0%的mIoU改进。

简介

作者认为一个成功的语义分割模型应该具有以下特征：（i）作为编码器的强大骨干网络。与以前基于CNN的模型相比，基于transformer的模型的性能改进主要来自于更强的主干网络。（ii）多尺度信息交互。与主要识别单个对象的图像分类任务不同，语义分割是一项密集预测任务，因此需要处理单个图像中不同大小的对象。（iii）空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。（iv）计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤为重要。

作者在这篇文章的主要贡献：

确定了一个好的语义分割模型应该具有的特征，并提出了一种新的定制网络架构，称为SegNeXt，通过多尺度卷积特征唤起空间关注。

具有简单和轻量的卷积的编码器仍然可以比视觉变换器更好地执行，尤其是在处理对象细节时，同时它需要更少的计算成本。

在各种分割基准上大大提高了最先进的语义分割方法的性能，包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID。

方法

3.1 卷积encoder

作者在之前的大多数工作之后，对编码器采用金字塔结构。对于编码器中的构建块，采用了与ViT似的结构，但不同的是，我们没有使用self-attention，而是设计了一个新的多尺度卷积注意力（MSCA）模块。如图2（a）所示，MSCA包含三个部分：用于聚合局部信息的深度方向卷积、用于捕获多尺度上下文的多分支深度方向条带卷积以及用于建模不同信道之间关系的1×1卷积。1×1卷积的输出直接用作注意力权重，以重新加权MSCA的输入。

数学上，我们的MSCA可以写成：