ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用(1)

简介: ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用

来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 的关键,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。


视觉 Transformer 的最新进展表明,在基于点积自注意力的新空间建模机制驱动的各种任务中取得了巨大成功。在本文中,来自清华大学和 Meta AI 的研究者证明了视觉 Transformer 背后的关键成分,即输入自适应、长程和高阶空间交互,也可以通过基于卷积的框架有效实现。作者提出了递归门卷积(),它用门卷积和递归设计进行高阶空间交互。新操作具有高度灵活性和可定制性,与卷积的各种变体兼容,并将自注意力中的二阶交互扩展到任意阶,而不引入显著的额外计算。

可以作为一个即插即用模块来改进各种视觉 Transformer 和基于卷积的模型。基于该操作,作者构建了一个新的通用视觉主干族,名为 HorNet。在 ImageNet 分类、COCO 对象检测和 ADE20K 语义分割方面的大量实验表明,HorNet 在总体架构和训练配置相似的情况下,优于 Swin Transformers 和 ConvNeXt。HorNet 还显示出良好的可扩展性,以获得更多的训练数据和更大的模型尺寸。除了在视觉编码器中的有效性外,作者还表明可以应用于任务特定的解码器,并以较少的计算量持续提高密集预测性能。本文的结果表明,可以作为一个新的视觉建模基本模块,有效地结合了视觉 Transformer 和 CNN 的优点。



1. Motivation
自 AlexNet 在过去十年中引入以来,卷积神经网络(CNN)在深度学习和计算视觉方面取得了显著进展。CNN 有许多优良的特性,使其自然适用于广泛的视觉应用。平移等变性为主要视觉任务引入了有用的归纳偏差,并实现了不同输入分辨率之间的可传递性。高度优化的实现使其在高性能 GPU 和边缘设备上都非常有效。架构的演变进一步增加了其在各种视觉任务中的受欢迎程度。
基于 Transformer 的架构的出现极大地挑战了 CNN 的主导地位。通过将 CNN 架构中的一些成功设计与新的自注意力机制相结合,视觉 Transformer 在各种视觉任务上表现出领先的性能,如图像分类、物体检测、语义分割和视频理解。是什么让视觉 Transformer 比 CNN 更强大?通过学习视觉 Transformer 方面的新设计,已经做出了一些努力来改进 CNN 架构。然而,目前工作尚未从高阶空间交互的角度分析点积自注意力在视觉任务中的有效性。

虽然由于非线性,深度模型中的两个空间位置之间存在复杂且通常高阶的交互,但自注意力和其他动态网络的成功表明,结构设计引入的显式和高阶空间交互有利于提高视觉模型的建模能力。如上图所示,普通卷积运算没有明确考虑空间位置(即红色特征)及其相邻区域(即浅灰色区域)之间的空间交互。增强卷积运算,如动态卷积,通过生成动态权重引入显式空间交互。Transformers 中的点积自注意力操作由两个连续的空间交互组成,通过在查询、键和值之间执行矩阵乘法。视觉建模基本操作的趋势表明,可以通过增加空间交互的顺序来提高网络容量。
在本文中,作者总结了视觉 Transformers 成功背后的关键因素是通过自注意力操作实现输入自适应、远程和高阶空间交互的空间建模新方法。虽然之前的工作已经成功地将元架构、输入自适应权重生成策略和视觉 Transformers 的大范围建模能力迁移到 CNN 模型,但尚未研究高阶空间交互机制。作者表明,使用基于卷积的框架可以有效地实现所有三个关键要素。作者提出了递归门卷积(g nConv),它与门卷积和递归设计进行高阶空间交互。与简单地模仿自注意力中的成功设计不同,g n Conv 有几个额外的优点:1)效率。基于卷积的实现避免了自注意力的二次复杂度。在执行空间交互期间逐步增加通道宽度的设计也使能够实现具有有限复杂性的高阶交互;2) 可扩展。将自注意力中的二阶交互扩展到任意阶,以进一步提高建模能力。由于没有对空间卷积的类型进行假设,与各种核大小和空间混合策略兼容;3) 平移等变性。完全继承了标准卷积的平移等变性,这为主要视觉引入了有益的归纳偏置。
基于,作者构建了一个新的通用视觉主干族,名为 HorNet。作者在 ImageNet 分类、COCO 对象检测和 ADE20K 语义分割上进行了大量实验,以验证本文模型的有效性。凭借相同的 7×7 卷积核 / 窗口和类似的整体架构和训练配置,HorNet 优于 Swin 和 ConvNeXt 在不同复杂度的所有任务上都有很大的优势。通过使用全局卷积核大小,可以进一步扩大差距。HorNet 还显示出良好的可扩展性,可以扩展到更多的训练数据和更大的模型尺寸,在 ImageNet 上达到 87.7% 的 top-1 精度,在 ADE20K val 上达到 54.6% 的 mIoU,在 COCO val 上通过 ImageNet-22K 预训练达到 55.8% 的边界框 AP。除了在视觉编码器中应用外,作者还进一步测试了在任务特定解码器上设计的通用性。通过将添加到广泛使用的特征融合模型 FPN,作者开发了 HorFPN 来建模不同层次特征的高阶空间关系。作者观察到,HorFPN 还可以以较低的计算成本持续改进各种密集预测模型。结果表明,是一种很有前景的视觉建模方法,可以有效地结合视觉 Transofrmer 和 CNN 的优点。
2. 方法
2.1 gnConv: Recursive Gated Convolutions 在本节中,将介绍 g n Conv,这是一种实现长期和高阶空间相互作用的有效操作。g n Conv 由标准卷积、线性投影和元素乘法构建,但具有与自注意力类似的输入自适应空间混合功能。
Input-adaptive interactions with gated convolution
视觉 Transformer 最近的成功主要取决于视觉数据中空间交互的正确建模。与只需使用静态卷积核来聚合相邻特征的 CNN 不同,视觉 Transformer 应用多头自注意力动态生成权重以混合空间 token。然而,二次复杂度在很大程度上阻碍了视觉 Transformer 的应用,尤其是在下游任务中,包括需要更高分辨率特征图的分割和检测。在这项工作中,作者没有像以前的方法那样降低自注意力的复杂性,而是寻求一种更有效的方法,通过卷积和完全连接层等简单操作来执行空间交互。
本文方法的基本操作是门卷积(gConv)。是输入特征,门卷积的输出可以写成:



其中是执行通道混合的线性投影层,f 是深度卷积。,其中是以 i 为中心的局部窗口,w 表示 f 的卷积权重。因此,上述公式通过元素乘法明确引入了相邻特征之间的相互作用。作者将 gConv 中的相互作用视为一阶相互作用,因为每个仅与其相邻特征相互作用一次。
High-order interactions with recursive gating
在与 gConv 实现有效的 1 阶空间相互作用后,作者设计了,这是一种递归门卷积,通过引入高阶相互作用来进一步增强模型容量。形式上,首先使用获得一组投影特征


然后,作者通过以下方式递归执行 gating 卷积:



其中,将输出缩放 1/α 以稳定训练。是一组深度卷积层,用于按不同阶匹配维数。


最后,作者将最后一个递归步骤的输出馈送到投影层,以获得的结果。从递归公式方程可以很容易地看出,的交互阶在每一步后将增加 1。因此,可以看到,实现了 n 阶空间相互作用。还值得注意的是,只需要一个 f 来执行深度卷积,以串联特征,而不是像上面等式中那样计算每个递归步骤中的卷积,这可以进一步简化实现并提高 GPU 的效率。为了确保高阶交互不会引入太多计算开销,作者将每个阶中的通道维度设置为:



该设计表明,以从粗到细的方式执行交互,其中较低的阶数是用较少的通道计算的。此外,的通道维数正好为 2C,即使 n 增加,总的浮点也可以严格有界。


其中 K 是深度卷积的核大小。因此,以与卷积层类似的计算成本实现高阶交互。
Long-term interactions with large kernel convolutions
视觉 Transformer 和传统 CNN 的另一个区别是感受野。传统的 CNN 通常在整个网络中使用 3×3 卷积,而视觉 Transformer 在整个特征图上或在相对较大的局部窗口(例如 7×7)内计算自注意力。视觉 Transformer 中的感受野可以更容易地捕捉长期依赖关系,这也是公认的视觉 Transformer 的关键优势之一。受这种设计的启发,最近有一些努力将大型内核卷积引入 CNN。为了使能够捕捉长期交互,作者采用了两种深度卷积 f 实现:
1)7×7 卷积。7×7 是 Swin Transformers 和 ConvNext 的默认窗口 / 内核大小。[研究表明,内核大小在 ImageNet 分类和各种下游任务上具有良好的性能。作者遵循此配置,与视觉 Transformers 和现代 CNN 的代表性工作进行了公平比较。
2)全局滤波器(GF)。GF 层将频域特征与可学习的全局滤波器相乘,这相当于具有全局核大小和圆形填充的空域卷积。通过使用全局滤波器处理一半通道和使用 3×3 深度卷积处理另一半通道来使用 GF 层的修改版本,并且仅在后期使用 GF 层来保留更多的局部细节。
Spatial interactions in vision models
作者从空间交互的角度回顾了一些有代表性的视觉模型设计。具体地说,作者对特征 x_i 与其相邻特征之间的相互作用感兴趣。视觉 Transformer 和以前架构之间的关键区别,即视觉 Transformer 在每个基本块中具有高阶空间交互。这一结果启发作者探索一种能够以两个以上阶数实现更高效和有效空间交互的架构。如上所述,作者提出的可以实现复杂度有界的任意阶交互。还值得注意的是,与深度模型(如宽度和深度)中的其他比例因子类似,在不考虑整体模型容量的情况下简单地增加空间交互的顺序将不会导致良好的权衡。在本文中,作者致力于在分析精心设计的模型的空间交互阶数的基础上,开发一种更强大的视觉建模架构。对高阶空间相互作用进行更深入和正式的讨论可能是未来的一个重要方向。


Relation to dot-product self-attention
尽管本文的的计算与点积自注意有很大差异,但作者将证明也实现了输入自适应空间混合的目标。假设 M 是通过多头自注意力(MHSA)获得的注意力矩阵,将 M 写为(),因为混合权重可能在通道中变化。位置 i 处第 c 个通道的空间混合结果(在最终通道混合投影之前)为:


其中,w_V 是 V 投影层的权重。注意,通过点积运算获得的m_ij包含一阶相互作用。另一方面,的输出(在之前)可以写成:


下图总结了的细节实现:


2.2 Model Architectures
HorNet
可以替代视觉 Transformer 或现代 CNN 中的空间混合层。作者遵循与以前的元架构来构建 HorNet,其中基本块包含空间混合层和前馈网络(FFN)。根据模型大小和深度卷积 f_k 的实现,有两个模型变体系列,分别命名为 HorNet-T/S/B/L 7×7 和 HorNet-T/S/B/L GF。作者将流行的 Swin Transformer 和 ConvNeXt 视为视觉 Transformer 和 CNN 基线,因为本文的模型是基于卷积框架实现的,同时具有像视觉 Transformer 一样的高阶交互。为了与基线进行公平比较,作者直接遵循 Swin Transformers-S/B/L 的块数,但在第 2 阶段插入一个额外的块,以使整体复杂度接近,从而在所有模型变体的每个阶段中产生 [2、3、18、2] 个块。只需调整通道 C 的基本数量,以构建不同大小的模型,并按照惯例将 4 个阶段的通道数量设置为[C、2C、4C、8C]。对于 HorNet-T/S/B/L,分别使用 C=64、96、128、192。默认情况下,将每个阶段的交互顺序(即中的 n)设置为 2,3,4,5,这样最粗阶C_0的通道在不同阶段中是相同的。
HorFPN
除了在视觉编码器中使用之外,作者发现本文的可以是标准卷积的增强替代方案,该方案考虑了基于卷积的各种模型中的高阶空间相互作用。因此,替换 FPN 中用于特征融合的空间卷积,以改善下游任务的空间交互。具体来说,作者在融合不同金字塔级别的特征后添加了。对于目标检测,作者在每个级别用 替换自顶向下路径后的 3×3 卷积。对于语义分割,作者简单地将多阶特征映射串联后的 3×3 卷积替换为,因为最终结果直接从该串联特征预测。作者同样提供了两个实现,称为 HorFPN 7×7 和 HorFPN GF,由f_k的选择决定。

相关文章
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
5月前
|
机器学习/深度学习 算法 存储
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
【6月更文挑战第3天】Bengio等人提出的新模型Aaren视注意力为特殊RNN,以解决Transformer在资源受限环境中的计算成本高和内存使用问题。Aaren模型通过并行前缀和算法实现高效计算和常数级内存使用,性能接近Transformer,同时在时间序列任务中表现优秀,尤其适合移动设备和嵌入式系统。尽管可能在某些复杂任务上不如Transformer,但其高效性为实时数据处理提供了潜力。论文链接:[https://arxiv.org/pdf/2405.13956](https://arxiv.org/pdf/2405.13956)
98 2
|
6月前
|
编解码 计算机视觉 网络架构
【YOLOv8改进】BiFPN:加权双向特征金字塔网络 (论文笔记+引入代码)
该专栏深入研究了YOLO目标检测的神经网络架构优化,提出了加权双向特征金字塔网络(BiFPN)和复合缩放方法,以提升模型效率。BiFPN通过双向跨尺度连接和加权融合增强信息传递,同时具有自适应的网络拓扑结构。结合EfficientNet,构建了EfficientDet系列检测器,在效率和准确性上超越先前技术。此外,介绍了YOLOv8如何引入MPDIoU并应用BiFPN进行可学习权重的特征融合。更多详情可参考提供的专栏链接。
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进-论文笔记】RFAConv:感受野注意力卷积,创新空间注意力
【YOLO目标检测专栏】探索空间注意力局限,提出感受野注意力(RFA)机制,解决卷积核参数共享问题。RFAConv增强大尺寸卷积核处理能力,不增加计算成本,提升网络性能。已在YOLOv8中实现,详情见YOLO目标检测创新改进与实战案例专栏。
|
6月前
|
机器学习/深度学习 算法 固态存储
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
MFDS-DETR开源 | HS-FPN多级特征融合+Deformable Self-Attention,再续DETR传奇
836 0
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
42 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
机器学习/深度学习 自然语言处理 算法
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
286 0
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(一)
|
计算机视觉
ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用(2)
ECCV 2022 | 清华&Meta提出HorNet,用递归门控卷积进行高阶空间相互作用
191 0
|
计算机视觉
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(二)
涨点技巧 | 旷视孙剑等人提出i-FPN:用于目标检测的隐式特征金字塔网络(文末获取论文)(二)
103 0
下一篇
无影云桌面