SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读

简介: 我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。

12313d4c5d25436da8a27736d51ab9a0.png


code:Visual-Attention-Network/SegNeXt: Official Pytorch implementations for “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation” (NeurIPS 2022) (github.com)


paper:2209.08575.pdf (arxiv.org)


该文章被 NeurIPS 2022收录。


664aeb9c2b964ccaacee7d7de432252f.png


6b2989f871214885a92c217108b51637.png


摘要


我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。我们的SegNeXt在流行的基准测试(包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID)上大大提高了以前最先进的方法的性能。值得注意的是,SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN,在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言,与ADE20K数据集上的最先进方法相比,SegNeXt在相同或更少的计算下实现了约2.0%的mIoU改进。


简介


作者认为一个成功的语义分割模型应该具有以下特征:(i)作为编码器的强大骨干网络。与以前基于CNN的模型相比,基于transformer的模型的性能改进主要来自于更强的主干网络。(ii)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集预测任务,因此需要处理单个图像中不同大小的对象。(iii)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(iv)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤为重要。


作者在这篇文章的主要贡献:


  • 确定了一个好的语义分割模型应该具有的特征,并提出了一种新的定制网络架构,称为SegNeXt,通过多尺度卷积特征唤起空间关注。


  • 具有简单和轻量的卷积的编码器仍然可以比视觉变换器更好地执行,尤其是在处理对象细节时,同时它需要更少的计算成本。


  • 在各种分割基准上大大提高了最先进的语义分割方法的性能,包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID。


方法


1317c30e441f4ccb87a5ba46b10534ac.png


3.1 卷积encoder


作者在之前的大多数工作之后,对编码器采用金字塔结构。对于编码器中的构建块,采用了与ViT似的结构,但不同的是,我们没有使用self-attention,而是设计了一个新的多尺度卷积注意力(MSCA)模块。如图2(a)所示,MSCA包含三个部分:用于聚合局部信息的深度方向卷积、用于捕获多尺度上下文的多分支深度方向条带卷积以及用于建模不同信道之间关系的1×1卷积。1×1卷积的输出直接用作注意力权重,以重新加权MSCA的输入。


数学上,我们的MSCA可以写成:


image.png


其中F 代表的是输入特征。⊗ 是逐个元素的矩阵分解。DW−conv是深度可分离卷积。请注意,在MSCAN的每个构建块中,我们使用batch normalization而不是layer normalization,因为我们发现batch normalization在分割性能方面获得了更好的效果。


6b387906f6e4402d9399f8ec0a6aa12c.png


3.2 decoder


e0244e91aabc4375b8b5c89bc0b070da.png


作者讲述了目前主流的语义分割网络decoder结构,如上图3所示。作者采用c这种方式,效果好、参数少。


实验结果


a7edebad768f42f7b8c03950bbe3ab1e.png

b4712e035784489ab70a45b0249cbb4e.png

a7ddbfd5b60a46eda3a066ebcf4b1b0e.png

550648be9115472694408f4b139f1373.png


总结


在本文中,作者分析了以前成功的分割模型,并发现了它们所具有的良好效果。基于这些发现,作者提出了一个量身定制的卷积注意力模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。


最近,基于transformer的模型已经主导了各种细分排行榜。相反,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


4a80247a29554079b5dc64a56b77e838.png

目录
相关文章
|
机器学习/深度学习 搜索推荐 算法
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
近年来随着深度学习的发展,推荐系统大量使用用户行为数据来构建用户/商品表征,并以此来构建召回、排序、重排等推荐系统中的标准模块。普通算法得到的用户商品表征本身,并不具备可解释性,而往往只能提供用户-商品之间的attention分作为商品粒度的用户兴趣。我们在这篇文章中,想仅通过用户行为,学习到本身就具备一定可解释性的解离化的用户商品表征,并试图利用这样的商品表征完成单语义可控的推荐任务。
23833 0
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
|
3月前
|
机器学习/深度学习 PyTorch 语音技术
【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition
文章介绍了Conformer模型,这是一种结合了Transformer的自注意力机制和CNN卷积模块的混合模型,旨在提高语音识别任务的性能,通过自注意力捕捉全局上下文信息,同时利用卷积模块有效捕获局部特征。
74 0
|
6月前
|
Python
[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network
[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network
38 1
|
编解码 计算机视觉
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
222 2
|
机器学习/深度学习 编解码 自然语言处理
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers论文解读
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。
799 0
|
机器学习/深度学习 存储 人工智能
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
100 0
【文本分类】Recurrent Convolutional Neural Networks for Text Classification
|
机器学习/深度学习
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
Re22:读论文 HetSANN An Attention-based Graph Neural Network for Heterogeneous Structural Learning
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
|
机器学习/深度学习 自然语言处理
Understanding and Improving Layer Normalization | NIPS 2019 论文解读
作者们认为,前向归一化并非LN起作用的唯一因素,均值和方差也是重要原因。它们改变了后向梯度的中心和范围。同时,作者还发现,LN的参数,包括bias和gain,并非总是能够提升模型表现,甚至它们可能会增加过拟合的风险。因此,为了解决这个问题,作者们提出了自适应的LN(简称AdaNorm)。AdaNorm将LN中的bias和gain替换成线性映射函数的输出。这个函数能够自适应地根据不同的输入调整权重。作者们在七个数据集上做了实验都表明AdaNorm能够取得更好的效果。同时可以看到,AdaNorm缓解了过拟合的问题,并且给训练带来更好的收敛效果。
18355 0
Understanding and Improving Layer Normalization | NIPS 2019 论文解读
|
机器学习/深度学习 数据挖掘 Java
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(二)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章