SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读

简介: 我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。

12313d4c5d25436da8a27736d51ab9a0.png


code:Visual-Attention-Network/SegNeXt: Official Pytorch implementations for “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation” (NeurIPS 2022) (github.com)


paper:2209.08575.pdf (arxiv.org)


该文章被 NeurIPS 2022收录。


664aeb9c2b964ccaacee7d7de432252f.png


6b2989f871214885a92c217108b51637.png


摘要


我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。我们的SegNeXt在流行的基准测试(包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID)上大大提高了以前最先进的方法的性能。值得注意的是,SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN,在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言,与ADE20K数据集上的最先进方法相比,SegNeXt在相同或更少的计算下实现了约2.0%的mIoU改进。


简介


作者认为一个成功的语义分割模型应该具有以下特征:(i)作为编码器的强大骨干网络。与以前基于CNN的模型相比,基于transformer的模型的性能改进主要来自于更强的主干网络。(ii)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集预测任务,因此需要处理单个图像中不同大小的对象。(iii)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(iv)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤为重要。


作者在这篇文章的主要贡献:


  • 确定了一个好的语义分割模型应该具有的特征,并提出了一种新的定制网络架构,称为SegNeXt,通过多尺度卷积特征唤起空间关注。


  • 具有简单和轻量的卷积的编码器仍然可以比视觉变换器更好地执行,尤其是在处理对象细节时,同时它需要更少的计算成本。


  • 在各种分割基准上大大提高了最先进的语义分割方法的性能,包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID。


方法


1317c30e441f4ccb87a5ba46b10534ac.png


3.1 卷积encoder


作者在之前的大多数工作之后,对编码器采用金字塔结构。对于编码器中的构建块,采用了与ViT似的结构,但不同的是,我们没有使用self-attention,而是设计了一个新的多尺度卷积注意力(MSCA)模块。如图2(a)所示,MSCA包含三个部分:用于聚合局部信息的深度方向卷积、用于捕获多尺度上下文的多分支深度方向条带卷积以及用于建模不同信道之间关系的1×1卷积。1×1卷积的输出直接用作注意力权重,以重新加权MSCA的输入。


数学上,我们的MSCA可以写成:


image.png


其中F 代表的是输入特征。⊗ 是逐个元素的矩阵分解。DW−conv是深度可分离卷积。请注意,在MSCAN的每个构建块中,我们使用batch normalization而不是layer normalization,因为我们发现batch normalization在分割性能方面获得了更好的效果。


6b387906f6e4402d9399f8ec0a6aa12c.png


3.2 decoder


e0244e91aabc4375b8b5c89bc0b070da.png


作者讲述了目前主流的语义分割网络decoder结构,如上图3所示。作者采用c这种方式,效果好、参数少。


实验结果


a7edebad768f42f7b8c03950bbe3ab1e.png

b4712e035784489ab70a45b0249cbb4e.png

a7ddbfd5b60a46eda3a066ebcf4b1b0e.png

550648be9115472694408f4b139f1373.png


总结


在本文中,作者分析了以前成功的分割模型,并发现了它们所具有的良好效果。基于这些发现,作者提出了一个量身定制的卷积注意力模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。


最近,基于transformer的模型已经主导了各种细分排行榜。相反,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


4a80247a29554079b5dc64a56b77e838.png

目录
相关文章
|
4月前
|
机器学习/深度学习 PyTorch 语音技术
【文献学习】Conformer: Convolution-augmented Transformer for Speech Recognition
文章介绍了Conformer模型,这是一种结合了Transformer的自注意力机制和CNN卷积模块的混合模型,旨在提高语音识别任务的性能,通过自注意力捕捉全局上下文信息,同时利用卷积模块有效捕获局部特征。
116 0
|
7月前
|
Python
[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network
[Knowledge Distillation]论文分析:Distilling the Knowledge in a Neural Network
46 1
|
编解码 计算机视觉
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
237 2
|
机器学习/深度学习 编解码 自然语言处理
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers论文解读
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。
837 0
|
机器学习/深度学习 算法
Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读
该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。
122 0
|
机器学习/深度学习 存储 自然语言处理
论文推荐:Rethinking Attention with Performers
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
149 0
|
机器学习/深度学习 存储 编解码
【论文泛读】轻量化之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications(上)
【论文泛读】轻量化之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
【论文泛读】轻量化之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications(上)
|
机器学习/深度学习 编解码 固态存储
【论文泛读】轻量化之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications(下)
【论文泛读】轻量化之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications(下)
【论文泛读】轻量化之MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications(下)
|
机器学习/深度学习 自然语言处理 前端开发
《Reasoning about Entailment with Neural Attention》阅读笔记
《Reasoning about Entailment with Neural Attention》阅读笔记
168 0
《Reasoning about Entailment with Neural Attention》阅读笔记
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)