SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation 论文解读

简介: 我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。

12313d4c5d25436da8a27736d51ab9a0.png


code:Visual-Attention-Network/SegNeXt: Official Pytorch implementations for “SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation” (NeurIPS 2022) (github.com)


paper:2209.08575.pdf (arxiv.org)


该文章被 NeurIPS 2022收录。


664aeb9c2b964ccaacee7d7de432252f.png


6b2989f871214885a92c217108b51637.png


摘要


我们提出了SegNeXt,一种用于语义分割的简单卷积网络架构。最近的基于transformer的模型由于在编码空间信息时self-attention的效率而主导了语义分割领域。在本文中,我们证明卷积注意力是比transformer中的self-attention更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特性,我们发现了导致分割模型性能改进的几个关键因素。这促使我们设计一种使用轻量的卷积运算的新型卷积注意力网络。我们的SegNeXt在流行的基准测试(包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID)上大大提高了以前最先进的方法的性能。值得注意的是,SegNeXt的性能优于EfficientNet-L2 w/NAS-FPN,在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言,与ADE20K数据集上的最先进方法相比,SegNeXt在相同或更少的计算下实现了约2.0%的mIoU改进。


简介


作者认为一个成功的语义分割模型应该具有以下特征:(i)作为编码器的强大骨干网络。与以前基于CNN的模型相比,基于transformer的模型的性能改进主要来自于更强的主干网络。(ii)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集预测任务,因此需要处理单个图像中不同大小的对象。(iii)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(iv)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤为重要。


作者在这篇文章的主要贡献:


  • 确定了一个好的语义分割模型应该具有的特征,并提出了一种新的定制网络架构,称为SegNeXt,通过多尺度卷积特征唤起空间关注。


  • 具有简单和轻量的卷积的编码器仍然可以比视觉变换器更好地执行,尤其是在处理对象细节时,同时它需要更少的计算成本。


  • 在各种分割基准上大大提高了最先进的语义分割方法的性能,包括ADE20K、Cityscapes、COCO Stuff、Pascal VOC、Pascal-Context和iSAID。


方法


1317c30e441f4ccb87a5ba46b10534ac.png


3.1 卷积encoder


作者在之前的大多数工作之后,对编码器采用金字塔结构。对于编码器中的构建块,采用了与ViT似的结构,但不同的是,我们没有使用self-attention,而是设计了一个新的多尺度卷积注意力(MSCA)模块。如图2(a)所示,MSCA包含三个部分:用于聚合局部信息的深度方向卷积、用于捕获多尺度上下文的多分支深度方向条带卷积以及用于建模不同信道之间关系的1×1卷积。1×1卷积的输出直接用作注意力权重,以重新加权MSCA的输入。


数学上,我们的MSCA可以写成:


image.png


其中F 代表的是输入特征。⊗ 是逐个元素的矩阵分解。DW−conv是深度可分离卷积。请注意,在MSCAN的每个构建块中,我们使用batch normalization而不是layer normalization,因为我们发现batch normalization在分割性能方面获得了更好的效果。


6b387906f6e4402d9399f8ec0a6aa12c.png


3.2 decoder


e0244e91aabc4375b8b5c89bc0b070da.png


作者讲述了目前主流的语义分割网络decoder结构,如上图3所示。作者采用c这种方式,效果好、参数少。


实验结果


a7edebad768f42f7b8c03950bbe3ab1e.png

b4712e035784489ab70a45b0249cbb4e.png

a7ddbfd5b60a46eda3a066ebcf4b1b0e.png

550648be9115472694408f4b139f1373.png


总结


在本文中,作者分析了以前成功的分割模型,并发现了它们所具有的良好效果。基于这些发现,作者提出了一个量身定制的卷积注意力模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了当前最先进的基于transformer的方法。


最近,基于transformer的模型已经主导了各种细分排行榜。相反,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


适当的设计时,基于CNN的方法仍然可以比基于transformer的方法更好地执行。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。


4a80247a29554079b5dc64a56b77e838.png

目录
相关文章
|
机器学习/深度学习 搜索推荐 算法
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
近年来随着深度学习的发展,推荐系统大量使用用户行为数据来构建用户/商品表征,并以此来构建召回、排序、重排等推荐系统中的标准模块。普通算法得到的用户商品表征本身,并不具备可解释性,而往往只能提供用户-商品之间的attention分作为商品粒度的用户兴趣。我们在这篇文章中,想仅通过用户行为,学习到本身就具备一定可解释性的解离化的用户商品表征,并试图利用这样的商品表征完成单语义可控的推荐任务。
23676 0
Learning Disentangled Representations for Recommendation | NIPS 2019 论文解读
|
8月前
|
机器学习/深度学习 编解码 自然语言处理
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers论文解读
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。
440 0
|
8月前
|
机器学习/深度学习 算法
Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter论文解读
该论文针对Twitter网站的信息进行关键词提取,因为Twitter网站文章/对话长度受到限制,现有的方法通常效果会急剧下降。作者使用循环神经网络(recurrent neural network,RNN)来解决这一问题,相对于其他方法取得了更好的效果。
60 0
|
机器学习/深度学习 存储 自然语言处理
论文推荐:Rethinking Attention with Performers
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
98 0
|
机器学习/深度学习 搜索推荐
【推荐系统论文精读系列】(十四)--Information Fusion-Based Deep Neural Attentive Matrix Factorization Recommendation
推荐系统的出现,有效地缓解了信息过载的问题。而传统的推荐系统,要么忽略用户和物品的丰富属性信息,如用户的人口统计特征、物品的内容特征等,面对稀疏性问题,要么采用全连接网络连接特征信息,忽略不同属性信息之间的交互。本文提出了基于信息融合的深度神经注意矩阵分解(ifdnamf)推荐模型,该模型引入了用户和物品的特征信息,并采用不同信息域之间的交叉积来学习交叉特征。此外,还利用注意机制来区分不同交叉特征对预测结果的重要性。此外,ifdnamf采用深度神经网络来学习用户与项目之间的高阶交互。同时,作者在电影和图书这两个数据集上进行了广泛的实验,并证明了该模型的可行性和有效性。
230 0
【推荐系统论文精读系列】(十四)--Information Fusion-Based Deep Neural Attentive Matrix Factorization Recommendation
|
机器学习/深度学习 搜索推荐 算法
【推荐系统论文精读系列】(三)--Matrix Factorization Techniques For Recommender Systems
现在推荐系统一般是基于两种策略,一种是基于文本过滤的方式,另外一种是协同过滤,而基于文本过滤的方法是创造画像为用户或者物品,说白了就是用一些描述性的特征去描述它们,例如对于一部电影来说,可以为其创造画像电影类型、导演、演员、电影市场、票房等来进行描述,对于用户来说,可以用一些人口统计特征来进行描述。
416 1
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(三)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
|
机器学习/深度学习 数据挖掘 计算机视觉
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(一)
|
机器学习/深度学习 数据挖掘 Java
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章(二)
CV:翻译并解读2019《A Survey of the Recent Architectures of Deep Convolutional Neural Networks》第四章
|
机器学习/深度学习 自然语言处理
Understanding and Improving Layer Normalization | NIPS 2019 论文解读
作者们认为,前向归一化并非LN起作用的唯一因素,均值和方差也是重要原因。它们改变了后向梯度的中心和范围。同时,作者还发现,LN的参数,包括bias和gain,并非总是能够提升模型表现,甚至它们可能会增加过拟合的风险。因此,为了解决这个问题,作者们提出了自适应的LN(简称AdaNorm)。AdaNorm将LN中的bias和gain替换成线性映射函数的输出。这个函数能够自适应地根据不同的输入调整权重。作者们在七个数据集上做了实验都表明AdaNorm能够取得更好的效果。同时可以看到,AdaNorm缓解了过拟合的问题,并且给训练带来更好的收敛效果。
18213 0
Understanding and Improving Layer Normalization | NIPS 2019 论文解读