南开提出全新ViT | Focal ViT融会贯通Gabor滤波器，实现ResNet18相同参数，精度超8.6%-阿里云开发者社区

视觉 Transformer 在各类计算机视觉任务中已经取得了鼓舞人心的进展。普遍认为这归功于自注意力在特征标记之间建模全局依赖关系的能力。不幸的是，在密集预测任务中，自注意力仍面临一些挑战，比如高计算复杂性和缺乏理想的归纳偏置。

为了解决上述问题，作者重新审视了将视觉 Transformer 与Gabor滤波器结合的潜在益处，并提出了一种通过卷积可学习的Gabor滤波器（LGF）。作为自注意力的替代方案，作者采用LGF模拟生物视觉系统中的简单细胞对输入图像的响应，促使模型专注于从各种尺度与方向的目标的有鉴别性的特征表示。此外，作者基于LGF设计了一个仿生Focal Vision（BFV）块。这个块从神经科学获得灵感，并引入了多路径前馈网络（MPFFN）来模仿生物视觉皮层并行处理信息的方式。进一步地，作者开发了一个统一且高效的金字塔 Backbone 网络家族，称为Focal Vision Transformer （FViTs），通过堆叠BFV块构建而成。

实验结果显示，FViTs在各种视觉任务中表现出极具竞争力的性能。特别是在计算效率和可扩展性方面，FViTs与其他同类方法相比显示出显著的优势。

1 Introduction

自从Vision Transformer（ViT）的开创性工作以来，视觉 Transformer 在诸如图像分类、目标检测和语义分割等各种计算机视觉任务中取得了令人瞩目的进展。它们为这些任务提供了新的模式和解决方案，同时打破了卷积神经网络（CNNs）在计算机视觉领域的垄断。普遍认为，自注意力是 Transformer 成功的关键。这种注意力机制能够同时建模输入序列中不同位置之间的关系，在全局特征交互和长距离依赖提取方面表现出色。

不幸的是，自注意力仍然面临一些固有的挑战和限制，包括：

与卷积相比，自注意力具有二次计算复杂度以及高内存成本，在处理高分辨率图像和视频时，这个问题尤为突出。
自注意力倾向于关注输入序列的整体信息，在处理目标的局部特征和细节时缺乏敏感性，这影响了其在密集预测任务中的性能。
自注意力缺乏理想的归纳偏置，这意味着它通常需要更多的训练数据来进行优化，特别是在数据可用性有限的场景中，自注意力可能面临过拟合的风险。

为了缓解上述问题，许多研究陆续提出了各种自注意力的变体。PVT和CMT是这些变体的两个代表作品。它们在自注意力操作之前使用卷积来减少特征标记的空间大小，旨在降低自注意力计算过程中的内存成本。另一个印象深刻的工作是DAT，它引入了一种可变形自注意力用于视觉 Transformer 。这使得模型能够以数据依赖的方式学习稀疏注意力模式，增强了自注意力应用的灵活性。

尽管诸如下采样和稀疏化等方法可以减少自注意力机制的运算复杂度和内存消耗，但它们也导致了重要信息的丢失，并得到不完整的特征表示。作者必须承认，自注意力机制在深度学习领域是一项惊人的艺术杰作，不容易超越。在有限的计算资源下，作者必须问自己：作者真的需要自注意力机制吗？还有没有更好的选择？

一些近期的工作给出了它们各自的答案。FNet是一个快速有效的 Transformer 模型，通过使用标准的非参数傅里叶Transformer替代自注意力机制，在GLUE基准测试上分别达到了BERT-Base和BERT-Large各自92%和97%的准确率。MetaFormer是另一项有影响力的工作，它从一般架构的角度研究视觉 Transformer 。它经验性地证明了视觉 Transformer 的成功不仅仅归功于自注意力机制，还受益于视觉 Transformer 的结构。他们的发现为作者的研究提供了信心。

在本文中，作者重新探讨了将视觉 Transformer 与工程解决方案结合的潜在益处，利用卷积设计了一种有效的可学习Gabor滤波器（LGF）。作为自注意力机制的替代品，这种LGF显示出高效率和可扩展性。此外，从神经科学获得灵感，作者引入了多路径前馈网络（MPFFN）来模拟生物视觉皮层并行处理信息的工作方式。在LGF和MPFFN的基础上，作者提出了一个仿生Focal Vision（BFV）块作为基本构建单元。作者研究中的一个有趣发现是，BFV的结构与20世纪90年代首次提出的视觉注意力计算机模拟模型非常相似。唯一的不同在于，BFV块的末端没有精心设计的胜者全得竞争机制。

此外，遵循分层设计概念，作者通过堆叠BFV块开发了一个通用的视觉 Backbone 网络家族，称为Focal Vision Transformer （FViTs）。这个FViTs包括四个变体：FViT-Tiny、FViT-Small、FViT-Base和FViT-Large，增强了FViTs在各种计算机视觉任务中的适用性。图1展示了FViTs与一些自注意力和非自注意力 Baseline 在ImageNet数据集上的性能比较。

可以看出，FViTs在参数、计算复杂度与性能方面取得了权衡。据作者所知，这是首次在ImageNet等大规模数据集上结合Gabor滤波器和视觉 Transformer 的工作，也是首次提出基于Gabor滤波器的通用视觉 Transformer Backbone 网络家族。

主要贡献如下：

作为自注意力机制的替代方案，作者提出了一种基于卷积的高效可学习Gabor滤波器（LGF），用以模拟生物视觉系统中的简单细胞对输入图像的响应，促使模型关注从各种尺度与方向的目标的判别性特征表示。
受神经科学的启发，作者引入了一种多路径前馈网络（MPFFN）来模拟生物视觉皮层并行处理信息的工作方式，并基于LGF和MPFFN设计了一个仿生Focal Vision（BFV）块。
遵循分层设计理念，作者开发了一个统一的高效通用金字塔 Backbone 网络家族，称为FViTs。在计算效率和可扩展性方面，FViTs与其他同类网络相比显示出显著优势。

2 Related Work

Transformers for Vision

Transformer最初被设计和应用于机器翻译任务中，它是自然语言处理（NLP）领域的一个重大里程碑。自2020年以来，研究者们一直在努力解答这样一个问题：当Transformer应用于计算机视觉领域时会发生什么？并且已经取得了实质性进展。ViT是一项开创性工作，它将Transformer引入到视觉任务中，使用Transformer完全替代了卷积，并在许多视觉基准任务上超越了卷积神经网络（CNNs）。随后，一系列视觉Transformer变体被提出，为计算机视觉任务提供了新的解决方案。在视觉Transformer发展的早期阶段，研究者们倾向于将视觉Transformer的优越性能归因于自注意力。

大量研究聚焦于如何设计更高效的自注意力模块，以及探索如何更好地将自注意力和卷积的优势相结合。EViT是这些工作中的一项，它受鹰眼的视觉特性启发，设计了一种双焦自注意力机制。这种注意力机制旨在结合卷积和自注意力的优点，在计算效率与准确度之间取得平衡。

然而，近期的一些工作提供了不同的见解。这些工作显示，在不改变视觉Transformer结构的情况下，即使使用空间池化层或多层感知器替代自注意力，也能获得优秀的模型。这表明在Transformer架构中自注意力并非不可或缺。除了自注意力，作者还有更多其他的替代方案来更好地帮助作者完成计算机视觉任务。

2D Gabor Filter

Gabor滤波器是一种信号处理方法，最初由Gabor提出。作为工程中实用的数学工具，二维Gabor滤波器在图像处理领域得到了广泛的应用。其实质是设计一组二维Gabor函数来处理图像特征表示。该函数由正弦平面波函数与高斯核函数的乘积组成，赋予了Gabor滤波器方向选择性和空间频率选择性。二维Gabor函数定义如下：

在文中，和代表图像中像素位置的坐标。表示波长，它影响Gabor滤波器对特定频率的敏感性。代表核的方向。是相位偏移，用于调整Gabor小波相位。表示长宽比，控制Gabor小波的形状。是带宽，它表示高斯小波的方差。在实际应用中，主流方法选择Gabor函数的实部来处理图像特征，可以表示为：

众多研究已经表明，Gabor滤波器的动态响应特性与脊椎动物生物视觉系统的生理特征非常相似。近年来，一些研究试图将Gabor滤波器作为调制过程整合到深度卷积神经网络中，旨在更好地从图像中提取不变性信息，并提高深度神经网络在图像分析任务中的可解释性。然而，作者相信作者的工作是首次基于卷积设计一个可学习的Gabor滤波器，并完全替代特定的视觉Transformer子层。

3 Approach

Overall Architecture

受到生物视觉的启发，作者设计了一种不依赖于自注意力机制的新型视觉 Transformer 家族，称为Focal Vision Transformer （FViTs）。作者提出的FViTs的整体架构如图2所示。作者的目标是利用卷积和Gabor滤波器构建一个通用且高效的基础网络，以期在计算效率和泛化性能上取得突破。为了使FViT能够应用于高分辨率密集预测任务，作者采用了主流的分层设计概念。

具体来说，FViT包含一个卷积Backbone和一个具有四个阶段的金字塔结构。每个阶段由一个步长为2的卷积和多个仿生Focal Vision（BFV）块组成，旨在获得分层特征表示。

特别是，给定一个大小为的输入图像，首先将其送入卷积干细胞以提取输入图像的低层次特征表示。这个卷积干细胞包含三个连续的卷积层，其中第一个卷积层的步长为2。与重叠和非重叠的 Patch 嵌入相比，卷积可以更好地稳定网络的训练过程，并且已被广泛应用于最近的ViTs中。随后，这些低层次特征表示通过FViT的四个阶段进行处理，以获得分层特征表示。

FViT的每个阶段具有类似的架构，它们由一个步长为2的卷积和个BFV块组成。值得注意的是，步长为2的卷积用于 Patch 嵌入和调整特征分辨率及维度。从阶段1到阶段4，特征分辨率分别是、、和，特征维度分别是、、和。最后，在图像分类任务中，作者使用卷积投影、平均池化层和全连接层作为分类器来输出预测。

Bionic Focal Vision Block

Bionic Focal Vision（BFV）模块的结构如图2所示。作为FViTs的基本构建块，此BFV模块包括一个卷积位置嵌入（CPE），一个可学习的Gabor滤波器（LGF）以及一个多路径前馈网络（MPFFN）。BFV模块的数学定义如下所示：

(6)

其中，LN代表50ayerNorm函数，用于对特征进行标准化。以FViT的第一个阶段为例。给定一个输入特征张量，它首先由CPE处理，CPE用于补充所有标记的位置信息。然后，这些特征标记被送入LGF以提取多尺度和多方向的局部特征，促使BFV关注关键特征表示。最后，作者使用MPFFN来提高BFV块的特征融合与交互能力。

与其他类似方法相比，BFV块应用了两个关键设计：

一是用基于卷积设计的LGF替换视觉Transformer块中的自注意力，以增强视觉Transformer的灵活性和可扩展性。
二是从神经科学获得灵感，将新颖的MPFFN引入到普通的视觉Transformer块中，旨在有效提高前馈网络感知局部信息的能力。

作者期望这两个设计能够为视觉Transformer在计算效率和泛化性能方面带来进一步的突破。

Learnable Gabor Filter

受到生物视觉的启发，作者提出了可学习的高斯-拉普拉斯滤波器（LGF），用于从多个尺度和多个方向分析图像特征。图3展示了LGF的计算过程。主要思想是利用Gabor滤波器模拟生物视觉细胞对输入特征的响应，捕捉不变特征表示，以提高FViTs对复杂特征的解释性和鲁棒性。然而，如公式1和公式4所述，在使用Gabor函数时需要设置几个超参数，例如波长、核方向和相位偏移。

实际上，这些超参数很大程度上依赖于工程师的个人经验，并不是最优的。它们的设置值直接关系到Gabor滤波器的性能。因此，作者首先利用深度神经网络的学习能力，通过卷积来设计可学习的高斯-拉普拉斯滤波器（LGF）。给定一个的LGF，的LGF定义可以表示为。

在公式中，、、、和都是可训练的参数。作者以比例参数为例，此LGF（可能指局部梯度场）相对于的梯度可以写成：

在FViTs的训练过程中，作者使用了梯度反向传播算法和优化器来学习和更新LGF内的参数。为了更生动地说明LGF的操作，图4展示了LGF的前向计算过程和梯度反向传播过程的实现细节。正如作者一直强调的，作者希望利用Gabor滤波器和卷积操作的优势，为视觉 Transformer 提供一个比自注意力更好的选择。

与自注意力相比，LGF需要更少的计算资源和内存成本，这将为视觉 Transformer 带来明显的优势和好处。这意味着FViTs可以构建得更深和更宽，这有利于模型提取更丰富的语义信息。算法1总结了LGF的计算过程。

输入:

（注：这里的公式表示的是一个多维数组，属于数学和计算机科学中的张量表示，通常用于描述图像的像素值和通道信息，其中 ( H ) 代表高度，( W ) 代表宽度，( C ) 代表通道数，并不需要翻译。）

参数：索引和；波长，LGF（线性梯度场）的核方向，相位偏移，长宽比，带宽，核大小，LGF的核。

Multi-Path Feed Forward Network

作为 Transformer 的基本组成部分，前馈网络用于整合和映射不同特征表示之间的全局依赖关系。然而，全连接层缺乏局部敏感性。一种常见的做法是在两个全连接层之间引入卷积操作，或使用卷积来替代全连接层。作者认为上述方法效率低下。为此，作者从生物视觉皮层处理信息的工作方式中汲取灵感，并认为一个高效的前馈网络应该满足分层结构和多路径并行处理这两个设计条件。

此外，作者参考Res2Net的结构，提出了一种新颖的多路径前馈网络（MPFFN）。MPFFN的结构如图5所示。它旨在模仿生物视觉皮层并行处理信息的方式。从图中可以看出，输入特征被分为几组，前一组输出的特征随后与另一组输入特征的信息流路径一起发送到下一组过滤器。正如作者所强调的，MPFFN具有分层结构设计和多路径并行处理的特点，这可以增加每个网络层的感受野，并提升网络在更细粒度层面上多尺度特征表示的能力。

Architecture Variants of FViTs

作者遵循主流的分层设计概念，使用BFV块作为基本构建块，开发了一种新颖的通用视觉金字塔 Backbone 网络家族，称为FViTs。为了便于在各种计算机视觉任务中应用，FViTs包括四个变体：FViT-Tiny、FViT-Small、FViT-Base和FViT-Large。这些变体由四个阶段组成，每个阶段具有不同数量的BFV块和隐藏特征维度。

具体来说，作者使用步长为2的卷积来连接不同阶段的Patch嵌入。这个过程使得特征图的维度翻倍，空间大小减半，然后它们被送入下一阶段。因此，每个阶段可以输出不同大小和维度的特征图，旨在获得目标的丰富分层特征表示。为了更好地理解这四个变体的实现细节，表1显示了FViTs的配置信息。值得注意的是，为了便于与其他主流方法进行比较，FViT-Tiny、FViT-Small、FViT-Base和FViT-Large的输入图像分辨率均为。

4 Experiments

在本节中，作者在一系列主流计算机视觉任务上对FViTs进行实验，包括图像分类（第4.1节）、目标检测（第4.2节）和语义分割（第4.3节）。具体来说，作者首先在ImageNet 数据集上从头开始训练FViTs以实现图像分类，并获得预训练参数。随后，通过转移学习对FViTs的预训练参数进行微调，以验证在目标检测和语义分割任务上FViTs的泛化性能。另外，在第4.4节中，作者对FViTs进行了消融实验，以验证LGF和MPFFN的有效性。

Image Classification on ImageNet-1k

设置。 作者在ImageNet-1K 数据集上训练并评估了FViTs。这个数据集是计算机视觉任务中最广泛使用的数据集之一，并且常用于深度学习模型的预训练。它包含1K个类别，总计约1.33M张图像，其中1.28M张用于训练，50K张用于验证。为了公平起见，作者遵循与PVT 和 DeiT 相同的训练策略，以便与其他方法进行比较。

具体来说，作者选择AdamW作为网络参数优化器，权重衰减设置为0.05。初始学习率设定为0.001，之后采用余弦衰减。所有模型都训练了300个周期，并采用了与DeiT 相同的数据增强技术，包括随机翻转、随机裁剪、随机擦除、CutMix、Mixup 和标签平滑。

结果。表2展示了FViTs在ImageNet分类任务上的性能。正如作者所强调的，作者期望通过使用卷积和Gabor滤波器来提供一种有效的自注意力替代方案。与具有相似参数和计算成本的CNN Baseline相比较，FViTs表现出明显的竞争优势。特别是，尽管RegNetY来自神经架构搜索，但作者手动设计的FViTs仍然超过了它。此外，与其它流行的自注意力 Baseline 相比，FViTs在计算复杂度和性能方面也有惊人的优势。

具体来说，FViT-Small相较于PVT-S和LocalViT-S展示了更高级的性能，分类准确率分别高出1.3%和0.3%。在相同设置下，FViT-Large相比于DeiT-B和T2T-24，分别实现了0.7%和0.2%的性能提升。此外，作者还选择了两种没有自注意力的最先进 Baseline 进行比较，如ResMLP和PoolFormer。无论FViT是小型还是大型，作者的模型都显示出比ResMLP和PoolFormer更大的优势。

Object Detection and Instance Segmentation

设置。 作者在COCO 2017 数据集上对FViTs进行了目标检测和实例分割实验。该数据集包含80个类别，118K训练图像，5K验证图像和20K测试图像。为了便于与其他方法进行比较，在本次实验中，作者使用FViT-Small和FViT-Base作为视觉基础网络，并将其嵌入两个代表性框架RetinaNet 和 Mask R-CNN，以评估FViTs的鲁棒性和泛化性能。

具体来说，在训练之前，作者使用ImageNet-1k上的预训练参数初始化FViT-Small和FViT-Base，其余层则随机初始化。为了公平起见，作者遵循与MMDection相同的设置：将输入图像的短边调整为800，长边最多为1333；选择AdamW作为优化器，训练计划设置为1 x 12个周期；权重衰减和初始学习率分别设置为0.05和0.0001。

结果。表3展示了FViTs与ResNet，PoolFormer和PVT在COCO 2017验证数据集上进行目标检测和实例分割的性能对比。对于RetinaNet，作者使用平均精度均值（），50%和75% IoU阈值下的平均精度（，），以及小、中、大目标的平均精度（，，）作为评估模型性能的指标。

对于Mask R-CNN，作者使用平均边界框精度均值（），平均 Mask 精度均值（），以及不同IoU阈值（50%，75%）下的和作为评估指标。从结果可以看出，FViTs与其他同类方法相比具有竞争优势。

具体来说，FViT-Small和FViT-Base的比ResNet-50和ResNet-101分别高出4.8%和3.7%，分别高出2.9%和2.5%，分别高出4.0%和3.2%。对于PVT-S和PVT-M，FViT-Small和FViT-Base的分别领先0.7%和0.3%，分别领先0.5%和0.4%，分别领先0.6%和0.6%。

Semantic Segmentation on ADE20K

设置。 作者在ADE20K数据集上对FViTs进行了语义分割实验。这个ADE20K数据集广泛应用于语义分割任务，包含150个不同的语义类别，大约有20K训练图像，2K验证图像和3K测试图像。为了便于与其他方法进行比较，作者采用FViTs作为Backbone网络，并将其嵌入到Semantic FPN语义分割框架中，以评估FViTs在语义分割任务中的性能。

具体来说，作者遵循与PoolFormer相同的参数设置，选择AdamW作为参数优化器，学习率设置为1e-4。学习率按照幂次为0.9的多项式衰减计划进行衰减，训练迭代次数为80k。

结果。 表4展示了FViTs在ADE20K数据集上进行语义分割时，与ResNet，PoolFormer，以及PVT的性能对比。从结果可以看出，FViTs与这些对应方法相比具有竞争优势。

具体来说，FViT-Small和FViT-Base分别达到了40.7%和42.5%的mIoU。例如，在几乎相同的参数量和GFLOPs下，作者的FViT-Small和FViT-Base比PVT系列至少高出0.8%。这些结果表明，尽管作者的FViTs在特征提取中没有利用自注意力机制，但作为 Backbone 网络，在密集预测任务中也能取得满意的结果。

Ablation Studies

设置。 LGF和MPFFN是作者工作的主要贡献，也是构成FViTs的基本模块。它们使FViTs在图像分类、目标检测和语义分割任务中能够实现具有竞争力的性能，尤其是在计算效率和准确性之间取得良好折衷方面。为此，在本节中，作者在ImageNet-1K数据集上对LGF和MPFFN进行了消融实验，以验证LGF和MPFFN的有效性。具体来说，作者遵循第4.1节中的相同实验设置，并选择FViT-Small和FViT-Base作为 Baseline 。

结果。 表5展示了消融实验的结果。一个直观的结果是，当用MPFFN替换FFN时，模型的性能得到了提升。具体来说，对于FViT-Small和FViT-Base，分类准确率分别提高了0.3%和0.5%。此外，在使用LGF和FFN的情况下，FViT-Small和FViT-Base分别达到了80.8%和81.6%的分类准确率。这表明LGF可以成为自注意力机制的有效替代。

5 Conclusion

作者提出了Focal Vision Transformer （简称FViTs），这是一系列通用且高效的视觉 Backbone 网络。FViTs的核心设计是用卷积设计的可学习Gabor滤波器（LGF）替换视觉 Transformer 中的自注意力子层。

此外，从神经科学获得灵感，作者引入了多路径前馈网络（MPFFN）。作者所提出的LGF和MPFFN易于使用且可扩展，与各种宏观架构和微观设计兼容。作者的实验结果表明，在计算效率、泛化能力和准确度方面，FViTs可以成为视觉 Transformer 和CNN的一个非常有竞争力的替代方案。

参考

[1].FViT: A Focal Vision Transformer with Gabor Filter.

南开提出全新ViT | Focal ViT融会贯通Gabor滤波器，实现ResNet18相同参数，精度超8.6%