CVPR 2021 | LocalViT：将局部性引入视觉Transformer-阿里云开发者社区

CVPR 2021 | LocalViT：将局部性引入视觉Transformer

2024-03-18 164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CVPR 2021 | LocalViT：将局部性引入视觉Transformer

前言

论文：https://arxiv.org/pdf/2104.05707.pdf

代码：GitHub - ofsoundof/LocalViT

一、Abstract

本文我们研究如何将局部性机制引入视觉Transformer中。Transformer network起源于机器翻译，特别擅长对于长序列中的远程依赖关系进行建模。虽然token嵌入之间的全局交互可以通过Transformer的自注意力机制很好地建模，但缺乏局部区域内信息交换的局部机制。然而，局部性对于图像来说至关重要，因为它涉及线条、边缘、形状甚至物体等结构。

我们通过在前馈网络中引入深度卷积来为视觉Transformer添加局部性。这个看似简单的解决方案来自于前馈网络和反向残差块之间的比较。局部性机制的重要性通过两种方式得到验证：

1）广泛的设计选择（激活函数、层布局、扩展比率）可用于合并局部性机制，并且所有正确的选择都可以导致性能超过基线；

2）相同的局部性机制成功应用于4个视觉Transformer，这显示了局部性概念的泛化。

特别是，对于ImageNet2012分类，局部增强型Transformer的性能优于基线DeiT-T和PVT-T2.6%和3.1%，而参数数量和计算量的增加可以忽略不计。

二、Introduction

为了使用 Transformer 处理 2D 图像，输入图像首先被转换为与图像中的补丁相对应的标记序列。然后，注意力模块关注所有标记，并计算加权和作为下一层的标记。这样，有效感受野通过单个自注意力层扩展到整个图像。然而，视觉Transformer的问题在于全局连接与卷积思想相矛盾。

考虑到 CNN 与 Transformer 的优点，一个自然的问题是我们是否可以有效地将 CNN 的局部性和视觉 Transformer 的全局连接性结合起来，以提高性能，同时不增加模型复杂性。

我们试图填补 CNN 和视觉Transformer 之间的空白。具体来说，我们在Transformer 的前馈网络中引入了一种局部性机制，这是受到检查前馈网络和倒置残差的启发。 Transformer 的前馈网络由两个完全连接的层组成，它们之间的隐藏维度被扩展（通常为 4 倍）以提取更丰富的特征。类似地，在反向残差块中，两个1×1卷积之间的隐藏通道也被扩展。它们之间的主要区别在于反转残差块中的高效深度卷积。这种深度卷积可以精确地提供局部信息聚合的机制，而这在视觉变换器的前馈网络中是缺失的。此外，深度卷积在参数和计算复杂度方面都很高效。

所引入的局部性机制的有效性通过两种方式得到验证。首先，对其性能进行实验研究。我们得出四个基本结论：

仅深度卷积就已经可以提高基线Transformer 的性能；
深度卷积后更好的激活函数可以带来显着的性能增益；
局部性机制对于较低层更为重要；
扩大前馈网络的隐藏维度可以带来更大的模型容量和更高的分类精度。

其次，如图1所示，局部性机制成功应用于4个视觉Transformer ，这强调了其通用性。

本文的贡献有三方面：

（1）我们通过引入深度卷积为视觉Transformer带来了局部性机制。新的 Transformer 架构结合了用于全局关系建模的自注意力机制和用于本地信息聚合的局部性机制。

（2）我们分析了引入的局部性机制的基本属性。每个组件（深度卷积、非线性激活函数、层放置和隐藏维度扩展比率）的影响都被单独列出。

（3）我们将这些想法应用于视觉Transformer，包括 DeiT、T2T-ViT、PVT 和 TNT。实验表明，本文提出的简单技术可以很好地推广到各种Transformer架构。

三、Method

Transformer 通常由具有相似构建块的编码器和解码器组成。对于这里考虑的图像分类任务，网络中仅包含编码器。因此，我们主要描述编码器层中的操作。编码器有两个组件，即将令牌与所有令牌相关联的自注意力机制和应用于每个令牌的前馈网络。我们具体解释如何将局部性引入前馈网络。

1. Input interpretation

从不同角度可视化Transformer中的前馈网络

（a）输入被视为一个令牌序列

（b）一个等效的观点是仍然将标记重新排列为2D点阵

2. Locality

由于仅对特征图应用1×1卷积，因此相邻像素之间缺乏信息交互。此外，Transformer的自注意力部分仅捕获所有令牌之间的全局依赖关系。因此，Transformer块没有一种机制来对附近像素之间的局部依赖性进行建模。如果能够以有效的方式将局部性引入Transformer，那将会很有趣。

如图3，视觉 Transformer 中的 (a) 前馈网络的卷积版本、(b) 反向残差块和 (c) 最终使用的将局部性机制引入 Transformer 的网络之间的比较。 “DW”表示深度卷积。为了应对卷积运算，在(c)中通过“Seq2Img”和“Img2Seq”添加序列和图像特征图之间的转换。

四、Experiments

1. Influence of the locality

与baseline相比，参数数量仅略有增加，计算量的增加可以忽略不计。因此，通过结合局部性机制和调整前馈网络中的操作，可以显着提高视觉变换器的性能。

2. Activation functions

3. Placement of locality

与较高层相比，将局部性引入到较低层更有利。

4. Expansion ratio γ

网络性能和模型复杂度可以通过隐藏维度扩展比率γ来平衡。Squeeze-and-excitation对于较小的 γ 更有利。

5. Generalization and comparison

我们从表 5 中得出两个主要结论。首先，基于以下观察，局部性的有效性可以推广到广泛的视觉Transformer。

五、Conclusion

在本文中，我们建议将局部性机制加入视觉Transformer中。这是通过将二维深度卷积和非线性激活函数合并到视觉变换器的前馈网络中来完成的。这个想法的灵感来自于 Transformer 的前馈网络和 MobileNets 的逆残差之间的比较。在之前的工作中，前馈网络的输入是从图像转换而来的一系列标记嵌入。为了应对局部性机制，标记嵌入的序列被重新排列成格子作为2D特征图，用作增强前馈网络的输入。为了实现重新排列，类标记在前馈网络之前被分割，并在前馈网络之后与其他图像嵌入连接。进行了一系列研究来调查可能影响局部性机制性能的各种因素（激活函数、层放置和扩展比率）。所提出的局部性机制成功应用于四种不同的视觉Transformer，验证了其通用性。

CVPR 2021 | LocalViT：将局部性引入视觉Transformer

前言

一、Abstract

二、Introduction