4、本文方法
4.1、概览MogaNet
图A1提供了4阶段MogaNet架构的说明。对于阶段i,输入图像或特征首先被馈送到嵌入Stem中以调节特征分辨率并嵌入到维度中。假设输入图像为H×W分辨率,4个阶段的特征分别为H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32分辨率。
然后,嵌入的特征流到 Moga块中,Moga块由空间和通道聚合块组成,用于进一步的上下文提取和聚合。GAP和线性层将在分类任务的最终输出之后添加。对于密集预测任务,4个阶段的输出可以通过颈部模块使用。
4.2、多阶门控聚合
特征整合理论表明,人类视觉通过提取基本的上下文特征并将个体特征与注意力相关联来感知目标。然而,正如在第3节中经验性讨论的那样,仅存在区域性感知或语境聚合不足以同时学习不同的语境特征和多秩序互动。
图3b显示了传统DNN倾向于关注低阶或高阶相互作用。他们错过了最丰富的中阶交互。因此,主要的挑战是如何有效地捕捉上下文中的多阶交互。
为此,作者提出了一个空间聚合(SA)块,以在统一设计中聚合多阶上下文,如图4所示,该块由2个级联组件组成:
其中,是一个特征分解模块(FD),是一个多阶门控聚合模块,由门控和上下文分支组成。
1、多阶上下文特征
作为一个纯卷积结构,作者提取具有静态和自适应区域感知的多阶特征。除了模阶交互作用外,还有两个不重要的交互作用,每个patch本身的0阶交互作用和覆盖所有patch的一阶交互作用,可以用Conv1×1(·)和GAP(·)来建模。为了迫使网络关注于多阶交互作用,本文提出了来动态地排除不重要的交互作用,其表述为:
其中,是一个初始化为零的缩放因子。
通过重新对不重要的交互成分进行重新加权,也增加了特征多样性。然后,集成了深度卷积(DWConv),在的上下文分支中对多阶特征进行编码。
与之前的工结合正常DWConv和自注意力模型局部和全局交互,采用3个DWConv层与扩张比并行捕获低,中间,高阶交互:
给定输入特征,首先应用得到低阶特征;然后将输出的低阶特征分解为,和,其中;然后,和分别分配给和,而作为相同的映射;
最后,将、和的输出连接为多阶上下文,即。
请注意,与ConvNeXt中使用的DW7×7相比,建议的FD(·)和多阶DWConv层只需要少量额外的计算开销和参数,例如,+多阶和+FD(·)比DW7×8增加了0.04M参数和0.01G FLOPS,如表2所示。
2、门控聚合
为了聚合来自上下文分支的输出上下文,在门控分支中使用了,即。如附录C.1所证实的,作者发现既具有的门控效应,又具有稳定的训练特性。以的输出作为输入,重写等式(4)对于:
使用所提议的SA块,MogaNet捕获了更多的中间阶交互,如图3b所示。SA块产生与ConvNeXt相似的高质量多阶表示,这远远超出了现有方法的覆盖范围,而不需要应用成本消耗的聚合。
4.3、按通道聚合重新分配多阶特征
如在第二节中所讨论的,主流架构仅通过两个线性投影来执行通道混合,例如,具有通道扩展比的2层通道或的MLP。
如图5b所示,需要大量的参数(默认为4或8)来实现预期的性能,但计算效率较低。
这个问题可能是由冗余的跨通道引起的,大多数方法通过改善特征多样性来解决这个问题,例如,在中插入一个模块。与之前需要另一个瓶颈的设计不同,作者设计了一个轻量级的通道聚合模块来重新加权高维隐藏空间,并进一步将其扩展到通道聚合()块。如图5a所示,块的输出被写为:
具体地说,通过通道减少投影:和GELU实现,以收集和重新分配通道级信息:
其中,是通道级的比例因子。
图5b验证了与普通MLP和带有SE模块的MLP相比的效率。尽管对基线进行了一些改进,但MLP / SE模块仍然需要较大的比率(例如,=6)来实现预期的性能,同时引入额外的参数和计算开销。
相比之下,提出的使用= 4的以较小的额外成本(0.04M额外参数和0.01G FLOPs)比基线带来了0.6%的收益,同时实现了与使用=8的基线相同的性能。
5、架构细节
6、实验
6.1、分类
6.2、目标检测与实例分割
6.3、语义分割
7、参考
[1].Efficient Multi-order Gated Aggregation Network.
8、推荐阅读
YOLO系列 | 一份YOLOX改进的实验报告,并提出更优秀的模型架构组合!