纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin

简介: 纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin

d67d433f589b72b6d895fb868bf1375a.png

自从Vision Transformers(ViT)取得成功以来,对Transformers架构的探索也引发了现代ConvNets的复兴。在这项工作中,通过交互复杂性的角度来探索DNN的表示能力。经验表明,交互复杂性是视觉识别的一个容易被忽视但又必不可少的指标。因此,本文作者提出了一个新的高效ConvNet系列,名为MogaNet,以在基于ConvNet的纯模型中进行信息上下文挖掘,并在复杂度和性能方面进行了更好的权衡。


在MogaNet中,通过在空间和通道交互空间中利用两个专门设计的聚合模块,促进了跨多个复杂性的交互并将其情境化。


对ImageNet分类、COCO目标检测和ADE20K语义分割任务进行了广泛的研究。实验结果表明,MogaNet在主流场景和所有模型规模中建立了比其他流行方法更先进的新SOTA。通常,轻量级的MogaNet-T通过在ImageNet-1K上进行精确的训练设置,以1.44G的FLOPs实现80.0%的top-1精度,超过ParC-Net-S 1.4%的精度,但节省了59%(2.04G)的FLOPs。

1、简介

自深度神经网络(DNN)兴起以来,卷积神经网络(ConvNets)一直是计算机视觉的首选方法。受灵长类视觉系统的启发,卷积层可以对具有区域密集连接和平移等方差约束的观测图像的邻域相关性进行编码。通过交错分层,ConvNets获得了被动增加的感受野,并善于识别潜在的语义模式。尽管性能很高,但ConvNets提取的表示已被证明对区域纹理有很强的偏差,导致视觉目标的全局上下文信息的显著丢失。为了解决这一限制,以前的工作提出了改进的宏架构和上下文聚合模块。


相比之下,通过放松局部感应偏差,新出现的Vision Transformers(ViT)及其变种在广泛的视觉基准上迅速超越了ConvNets。几乎一致的共识是,ViT的能力主要来源于自注意力机制,无论拓扑距离如何,它都有助于长距离互动。然而,从实际角度来看,自注意力机制中的二次复杂性限制了ViT的计算效率及其在细粒度下游任务中的应用潜力。

此外,卷积感应偏置的缺失破坏了图像的固有2D结构,从而不可避免地导致图像特定邻域关系的损害。因此,随后的几项努力都有助于重新引入金字塔状分层布局和ViT的平移不变性。


与之前的研究不同,最近的研究从经验上揭示了ViT的表达优势在很大程度上取决于它们的宏级架构,而不是通常推测的token mixer。更重要的是,通过先进的训练设置和结构现代化,ConvNets可以在不增加计算预算的情况下轻松提供与经过良好调整的ViT相当甚至更优异的性能。然而,现有方法仍然存在一个表示瓶颈:自注意力机制或大内核的实现阻碍了区分性上下文信息和全局交互的建模,导致DNN和人类视觉系统之间的认知差距。与特征整合理论一样,人脑不仅提取局部特征,而且同时聚合这些特征以进行全局感知,这比DNN更紧凑和高效。

5cdbb94375ab1084802afe864023e6e7.png

为了应对这一挑战,作者从特征交互复杂性的角度研究了DNN的表示能力。在图3b中,大多数现代DNN倾向于编码极低或高复杂性的相互作用,而不是信息最丰富的中间相互作用。为此,作者涉及了一个具有相应基本操作的宏ConvNet框架,并进一步开发了一个名为多阶门控聚合网络(MogaNet)的新型ConvNets家族,用于加速具有多重交互复杂性的上下文信息。

在MogaNet中,根据人类视觉引入了一个多阶特征聚合模块。作者的设计将局部感知和上下文聚合封装到一个统一的空间聚合块中,在该块中,复合多阶关联通过并行的选通机制被有效地聚合和上下文。从通道方面来看,由于现有方法易于实现高通道信息冗余,因此定制了一个简单而有效的通道聚合块,该块对输入特征执行自适应通道重分配,并以较低的计算成本显著优于主流对应方(例如SE模块)。

addfd46974dcc4621f01d4debecd7f9d.png

大量实验表明,在ImageNet-1K和多种下游基准上,MogaNet在不同模型尺度下的性能和效率令人印象深刻。经验证明,交互复杂性可以作为高质量视觉识别的重要指标,如感受野。因此,通过1.44G FLOP和5.2M参数,MogaNet-T在ImageNet-1K上使用默认和优化的训练策略,实现了79.6%和80.0%的top-1准确率,在相同设置下,以2.04G的FLOP超过了先前最先进的ParC-Net-S 1.0%。此外,MogaNet-S以4.97G FLOP和25.3M参数达到83.4%的top-1精度,与流行的小型模型相比,产生了可观的计算开销,如图1所示。

2、准备工作

由于ViTs在许多视觉任务中大大超过了规范的 ConvNet,一些工作试图解释是什么使ViTs工作。这里从整体框架和基本操作两个方面提出了一个全面的宏观架构。

2.1、总体结构

35f663cb22a20c874a1c70ce7456f7c7.png

最近的研究表明,其固有的框架使ViTs优于ConvNet。因此,首先介绍了一个针对ConvNet的分层设计,它考虑了vit的优点,如图2所示。它主要包括3个基本组成部分:

  1. embedding stem
  2. spatial mixing block
  3. channel mixing block

embedding stem是经典ConvNets和ViTs的关键组成部分,它对输入图像进行降采样,以减少图像固有的冗余和计算过载。给定H×W分辨率中的X作为输入图像或前一阶段的输出,在每个阶段开始时将stem视为“尺寸控制器”:

8a6e9454ad91431685924dd37cd7380a.png

其中,Z被降采样到H/2×W/2分辨率。然后,特征在每个阶段流到一堆残差块。网络模块可以被解耦为两个独立的组件:SMixer和CMixer,用于空间上和通道上的信息传播,

61725b0460bd0074c4c9f848d0adf94c.png

其中,Norm是一个归一化层,例如,批处理归一化(BN)。请注意,SMixer可以是各种空间操作(例如,自注意力,卷积),而CMixer通常是通过 inverted bottleneck 中的通道级MLP和r的扩展比来实现的。

2.2、重新审视基本操作

如何有效地学习上下文和鲁棒特征是视觉表征学习的主要主题。将与表达能力相关的两种重要操作分类:区域性感知和上下文聚合。

这里,假设输入特征X并且输出Z具有相同的形状。

1、区域性感知

原始图像具有局部结构,并且在空间空间中具有高度冗余。这一性质要求使用局部和结构归纳偏差来有效提取上下文表示。作者总结了这些操作和网络模块,它们静态地提取作为区域性感知的上下文特征,并将其定义为1675312627577.png,其中1675312644607.png可以是任意的二进制运算符(例如,点积、卷积、逐元素积),表示可学习的权重。

区域性感知的实例是局部连接的,并在不同位置上共享权重,例如各种卷积、空间MLP,甚至是非参数操作,如池化和空间移位。卷积运算是最常用和最彻底的研究,它平衡了效率与精度之间的权衡。卷积可以写成1675312658786.png,其中1675312683064.png是卷积,kernel1675312696524.png由M个滤波器组成。

2、上下文聚合

除了局部特征之外,高级语义上下文建模对于视觉识别也是至关重要的。经典ConvNets通常使用这些模块的深层堆栈来捕获受其感受野限制的远距离交互。然而,这些设计可能在计算上效率是低下的,并可能会产生冗余特征。

为了解决这一难题,本文提出了上下文聚合模块,以自适应地探索和强调潜在的上下文信息,并减少输入特征中的冗余。形式上将上下文聚合概括为一系列网络组件,这些组件自适应地捕获两个嵌入特征之间的交互:

7b3491f82653c1b324e68358fb6521b2.png

其中,1675312713580.png是参数为1675312728211.png的聚合和上下文分支。或者,输出可以通过线性投影1675312753276.png转换为输入维度。


与区域性感知相反,上下文聚合模块通过聚合分支1675312796133.png上每个位置的重要性进行建模,并通过1675312807832.png从上下文分支1675312820607.png中对嵌入的特征重新进行加权。


本文简要介绍了两种常用的上下文聚合:自注意力机制和门控注意力机制,如表1所示。

d7308be40ca8daddfdf98c765bf3b55b.png

值得注意的是,X上每个位置的重要性是通过1675312852023.png中所有其他位置与点积的全局交互来计算的。此操作采用二次复杂度,并导致较大的计算开销。为了克服这一限制,提出了许多线性复杂度中的注意力变体来替代点积自注意力,例如,表1第2行中的线性注意力,但它们通常会引入归纳偏差,并可能退化为微不足道的注意力。


与自注意力不同,选通单元在线性复杂度中使用元素乘积1675312876609.png,例如,表1最后两行中的Gated linear unit(GLU)和 Squeeze-and-Excitation(SE)模块。然而,它们仅使用全局平均池化(GAP)聚合每个位置或整个上下文的信息,这缺乏空间相互作用。

3、多阶交互视角中的表示瓶颈

对DNN表示能力的分析为解释和识别现有DNN提供了新的视角。与之前主要关注DNN的鲁棒性和泛化能力的研究相比,作者将范围扩展到特征交互复杂性的研究。


直观地,如图3a所示,强大的ViT在极端遮挡比(例如,仅10∼20%可见patch块),但在中等遮挡的情况下产生有限的信息增益,这表明主流深度模型和人类视觉之间存在认知差距。它可以用M阶相互作用1675312913929.png阶相互作用力强度来解释。


考虑到总共有n个patch的图像,1675312929273.png在由m个patch组成的所有上下文中测量patch对1675312954585.png之间的平均交互复杂性,其中1675312974962.png顺序反映了上下文的复杂性。

通过相互作用强度的平均值归一化,相对相互作用强度1675312994043.png测量DNN中编码的相互作用的复杂性。

fbbd84b455939b5ac2581a50264e99f1.png

在图3b中经验性地表明,大多数当前的DNN更倾向于编码过度低阶或高阶的相互作用,而通常缺少信息最丰富的中阶相互作用。从作者的角度来看,这种表示瓶颈可能归因于上述区域性感知和上下文聚合操作的不当组合,这将不利的交互偏见注入到深层架构中。

4、本文方法

4.1、概览MogaNet

47ff2193c946db9103c18db2a0d428c6.png

图A1提供了4阶段MogaNet架构的说明。对于阶段i,输入图像或特征首先被馈送到嵌入Stem中以调节特征分辨率并嵌入到1675313019356.png维度中。假设输入图像为H×W分辨率,4个阶段的特征分别为H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32分辨率。


然后,嵌入的特征流到1675313031940.png Moga块中,Moga块由空间和通道聚合块组成,用于进一步的上下文提取和聚合。GAP和线性层将在分类任务的最终输出之后添加。对于密集预测任务,4个阶段的输出可以通过颈部模块使用。

4.2、多阶门控聚合

特征整合理论表明,人类视觉通过提取基本的上下文特征并将个体特征与注意力相关联来感知目标。然而,正如在第3节中经验性讨论的那样,仅存在区域性感知或语境聚合不足以同时学习不同的语境特征和多秩序互动。

图3b显示了传统DNN倾向于关注低阶或高阶相互作用。他们错过了最丰富的中阶交互。因此,主要的挑战是如何有效地捕捉上下文中的多阶交互。

8b0d657a2335b6563d78aa45dced4cc7.png

为此,作者提出了一个空间聚合(SA)块,以在统一设计中聚合多阶上下文,如图4所示,该块由2个级联组件组成:

30e4ba666190b3c7afb6f9505017422c.png

其中,是一个特征分解模块(FD),是一个多阶门控聚合模块,由门控和上下文分支组成。

1、多阶上下文特征

作为一个纯卷积结构,作者提取具有静态和自适应区域感知的多阶特征。除了模阶交互作用外,还有两个不重要的交互作用,每个patch本身的0阶交互作用和覆盖所有patch的一阶交互作用,可以用Conv1×1(·)和GAP(·)来建模。为了迫使网络关注于多阶交互作用,本文提出了1675313057125.png来动态地排除不重要的交互作用,其表述为:

33f4744b63981c7d96a5fbf88f84c3a9.png

其中,1675313076085.png是一个初始化为零的缩放因子。

通过重新对不重要的交互成分1675313108686.png进行重新加权,1675313122703.png也增加了特征多样性。然后,集成了深度卷积(DWConv),在1675313220012.png的上下文分支中对多阶特征进行编码。


与之前的工结合正常DWConv和自注意力模型局部和全局交互,采用3个DWConv层与扩张比1675313239573.png并行捕获低,中间,高阶交互:

给定输入特征1675313264243.png,首先应用1675313276219.png得到低阶特征;然后将输出的低阶特征分解为1675313329517.png其中1675313290588.png;然后,和分别分配给1675313362614.png,而1675313310205.png作为相同的映射;

最后,将1675313379383.png的输出连接为多阶上下文,即1675313393167.png

39a6264e0dcc9a065162eaa1eb73c883.png

请注意,与ConvNeXt中使用的DW7×7相比,建议的FD(·)和多阶DWConv层只需要少量额外的计算开销和参数,例如,+多阶和+FD(·)比DW7×8增加了0.04M参数和0.01G FLOPS,如表2所示。

2、门控聚合

为了聚合来自上下文分支的输出上下文,在门控分支中使用了1675313423400.png,即1675313442384.png。如附录C.1所证实的,作者发现1675313423400.png既具有1675313454600.png的门控效应,又具有稳定的训练特性。以1675313470976.png的输出作为输入,重写等式(4)对于1675313484094.png

bc00a97dffd912b53a4a3a5c175b81ee.png

使用所提议的SA块,MogaNet捕获了更多的中间阶交互,如图3b所示。SA块产生与ConvNeXt相似的高质量多阶表示,这远远超出了现有方法的覆盖范围,而不需要应用成本消耗的聚合。

4.3、按通道聚合重新分配多阶特征

如在第二节中所讨论的,主流架构仅通过两个线性投影来执行通道混合1675313503571.png,例如,具有通道扩展比r的2层通道1675313534747.png的MLP。

如图5b所示,MLP需要大量的参数(默认为4或8)来实现预期的性能,但计算效率较低。

这个问题可能是由冗余的跨通道引起的,大多数方法通过改善特征多样性来解决这个问题,例如,MLP在中插入一个SE模块。与之前需要另一个MLP瓶颈的设计不同,作者设计了一个轻量级的通道聚合模块1675313608132.png来重新加权高维隐藏空间,并进一步将其扩展到通道聚合(CA)块。如图5a所示,CA块的输出被写为:

2f4d4972b9fdcbea120a4446147d604c.png

具体地说,1675313608132.png通过通道减少投影1675313632222.png实现,以收集和重新分配通道级信息:

91fc140314d137b9cae060ced2f8d369.png

其中,是通道级的比例因子。

94ad69eb66ce9c4ebb62d2e0130eb0e0.png

图5b验证了1675313667351.png与普通MLP和带有SE模块的MLP相比的效率。尽管对基线进行了一些改进,但MLP / SE模块仍然需要较大的MLP比率(例如,=6)来实现预期的性能,同时引入额外的参数和计算开销。

相比之下,提出的使用= 4的以较小的额外成本(0.04M额外参数和0.01G FLOPs)比基线带来了0.6%的收益,同时实现了与使用=8的基线相同的性能。

5、架构细节

a7a8af34e4a394710e2538b86312acac.png4e3f55a45802fe5cf4d527cedaa7e117.png

6、实验

6.1、分类

89b82c6ce2a43a4e7a07e7ca693c1706.png1108e932c2ef60f0cea40179480e05ab.png

6.2、目标检测与实例分割

7159100eda2191e9e3f9f7802eb56bdf.png

6.3、语义分割

04641d605b4c63dc2c1e8ea01b0eb5d3.png

7、参考

[1].Efficient Multi-order Gated Aggregation Network.

8、推荐阅读

YOLO系列 | 一份YOLOX改进的实验报告,并提出更优秀的模型架构组合!

再战IOU | 总结分析IOU/GIOU/CIOU局限,提出Focal EIOU进一步提升目标检测性能

SSD没有错付 | SSD改进版本来啦!PSSD携实时性与高精度归来!

相关文章
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍
深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍
10658 1
 深度学习应用篇-计算机视觉-图像分类[3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍
|
机器学习/深度学习 编解码 固态存储
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(二)
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(二)
337 0
|
机器学习/深度学习 编解码 计算机视觉
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(一)
纯卷积Backbone巅峰 | MogaNet登峰造极,超越ConvNeXt、ParC-Net和SWin(一)
111 0
|
28天前
|
开发框架 前端开发 JavaScript
ASP.NET MVC 教程
ASP.NET 是一个使用 HTML、CSS、JavaScript 和服务器脚本创建网页和网站的开发框架。
28 7
|
27天前
|
存储 开发框架 前端开发
ASP.NET MVC 迅速集成 SignalR
ASP.NET MVC 迅速集成 SignalR
38 0
|
2月前
|
开发框架 前端开发 .NET
ASP.NET MVC WebApi 接口返回 JOSN 日期格式化 date format
ASP.NET MVC WebApi 接口返回 JOSN 日期格式化 date format
36 0
|
2月前
|
开发框架 前端开发 安全
ASP.NET MVC 如何使用 Form Authentication?
ASP.NET MVC 如何使用 Form Authentication?
|
2月前
|
开发框架 .NET
Asp.Net Core 使用X.PagedList.Mvc.Core分页 & 搜索
Asp.Net Core 使用X.PagedList.Mvc.Core分页 & 搜索
91 0
|
5月前
|
开发框架 前端开发 .NET
ASP.NET CORE 3.1 MVC“指定的网络名不再可用\企图在不存在的网络连接上进行操作”的问题解决过程
ASP.NET CORE 3.1 MVC“指定的网络名不再可用\企图在不存在的网络连接上进行操作”的问题解决过程
158 0
|
5月前
|
开发框架 前端开发 JavaScript
JavaScript云LIS系统源码ASP.NET CORE 3.1 MVC + SQLserver + Redis医院实验室信息系统源码 医院云LIS系统源码
实验室信息系统(Laboratory Information System,缩写LIS)是一类用来处理实验室过程信息的软件,云LIS系统围绕临床,云LIS系统将与云HIS系统建立起高度的业务整合,以体现“以病人为中心”的设计理念,优化就诊流程,方便患者就医。
68 0
下一篇
无影云桌面