CVPR 2021 | LocalViT:将局部性引入视觉Transformer

简介: CVPR 2021 | LocalViT:将局部性引入视觉Transformer

前言

论文:https://arxiv.org/pdf/2104.05707.pdf

代码:GitHub - ofsoundof/LocalViT


一、Abstract

本文我们研究如何将局部性机制引入视觉Transformer中。Transformer network起源于机器翻译,特别擅长对于长序列中的远程依赖关系进行建模。虽然token嵌入之间的全局交互可以通过Transformer的自注意力机制很好地建模,但缺乏局部区域内信息交换的局部机制。然而,局部性对于图像来说至关重要,因为它涉及线条、边缘、形状甚至物体等结构。

我们通过在前馈网络中引入深度卷积来为视觉Transformer添加局部性。这个看似简单的解决方案来自于前馈网络和反向残差块之间的比较。局部性机制的重要性通过两种方式得到验证:

1)广泛的设计选择(激活函数、层布局、扩展比率)可用于合并局部性机制,并且所有正确的选择都可以导致性能超过基线;

2)相同的局部性机制成功应用于4个视觉Transformer,这显示了局部性概念的泛化。

特别是,对于ImageNet2012分类,局部增强型Transformer的性能优于基线DeiT-T和PVT-T2.6%和3.1%,而参数数量和计算量的增加可以忽略不计。

二、Introduction

为了使用 Transformer 处理 2D 图像,输入图像首先被转换为与图像中的补丁相对应的标记序列。然后,注意力模块关注所有标记,并计算加权和作为下一层的标记。这样,有效感受野通过单个自注意力层扩展到整个图像。然而,视觉Transformer的问题在于全局连接与卷积思想相矛盾。

考虑到 CNN 与 Transformer 的优点,一个自然的问题是我们是否可以有效地将 CNN 的局部性和视觉 Transformer 的全局连接性结合起来,以提高性能,同时不增加模型复杂性。

我们试图填补 CNN 和视觉Transformer 之间的空白。具体来说,我们在Transformer 的前馈网络中引入了一种局部性机制,这是受到检查前馈网络和倒置残差的启发。 Transformer 的前馈网络由两个完全连接的层组成,它们之间的隐藏维度被扩展(通常为 4 倍)以提取更丰富的特征。类似地,在反向残差块中,两个1×1卷积之间的隐藏通道也被扩展。它们之间的主要区别在于反转残差块中的高效深度卷积。这种深度卷积可以精确地提供局部信息聚合的机制,而这在视觉变换器的前馈网络中是缺失的。此外,深度卷积在参数和计算复杂度方面都很高效。

所引入的局部性机制的有效性通过两种方式得到验证。首先,对其性能进行实验研究。我们得出四个基本结论:

  • 仅深度卷积就已经可以提高基线Transformer 的性能;
  • 深度卷积后更好的激活函数可以带来显着的性能增益;
  • 局部性机制对于较低层更为重要;
  • 扩大前馈网络的隐藏维度可以带来更大的模型容量和更高的分类精度。

其次,如图1所示,局部性机制成功应用于4个视觉Transformer ,这强调了其通用性。

本文的贡献有三方面:

(1)我们通过引入深度卷积为视觉Transformer带来了局部性机制。新的 Transformer 架构结合了用于全局关系建模的自注意力机制和用于本地信息聚合的局部性机制。

(2)我们分析了引入的局部性机制的基本属性。每个组件(深度卷积、非线性激活函数、层放置和隐藏维度扩展比率)的影响都被单独列出。

(3)我们将这些想法应用于视觉Transformer,包括 DeiT、T2T-ViT、PVT 和 TNT。实验表明,本文提出的简单技术可以很好地推广到各种Transformer架构。

三、Method

Transformer 通常由具有相似构建块的编码器和解码器组成。对于这里考虑的图像分类任务,网络中仅包含编码器。因此,我们主要描述编码器层中的操作。编码器有两个组件,即将令牌与所有令牌相关联的自注意力机制和应用于每个令牌的前馈网络。我们具体解释如何将局部性引入前馈网络。

1. Input interpretation

从不同角度可视化Transformer中的前馈网络

(a)输入被视为一个令牌序列

(b)一个等效的观点是仍然将标记重新排列为2D点阵

2. Locality

由于仅对特征图应用1×1卷积,因此相邻像素之间缺乏信息交互。此外,Transformer的自注意力部分仅捕获所有令牌之间的全局依赖关系。因此,Transformer块没有一种机制来对附近像素之间的局部依赖性进行建模。如果能够以有效的方式将局部性引入Transformer,那将会很有趣。

如图3,视觉 Transformer 中的 (a) 前馈网络的卷积版本、(b) 反向残差块和 (c) 最终使用的将局部性机制引入 Transformer 的网络之间的比较。 “DW”表示深度卷积。为了应对卷积运算,在(c)中通过“Seq2Img”和“Img2Seq”添加序列和图像特征图之间的转换。

四、Experiments

1. Influence of the locality

与baseline相比,参数数量仅略有增加,计算量的增加可以忽略不计。因此,通过结合局部性机制和调整前馈网络中的操作,可以显着提高视觉变换器的性能。

2.  Activation functions

3.  Placement of locality

与较高层相比,将局部性引入到较低层更有利。

4. Expansion ratio γ

网络性能和模型复杂度可以通过隐藏维度扩展比率γ来平衡。Squeeze-and-excitation对于较小的 γ 更有利。

5. Generalization and comparison

我们从表 5 中得出两个主要结论。首先,基于以下观察,局部性的有效性可以推广到广泛的视觉Transformer。


五、Conclusion

在本文中,我们建议将局部性机制加入视觉Transformer中这是通过将二维深度卷积和非线性激活函数合并到视觉变换器的前馈网络中来完成的。这个想法的灵感来自于 Transformer 的前馈网络和 MobileNets 的逆残差之间的比较。在之前的工作中,前馈网络的输入是从图像转换而来的一系列标记嵌入。为了应对局部性机制,标记嵌入的序列被重新排列成格子作为2D特征图,用作增强前馈网络的输入。为了实现重新排列,类标记在前馈网络之前被分割,并在前馈网络之后与其他图像嵌入连接。进行了一系列研究来调查可能影响局部性机制性能的各种因素(激活函数、层放置和扩展比率)。所提出的局部性机制成功应用于四种不同的视觉Transformer,验证了其通用性。

目录
相关文章
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
947 0
|
8月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进】D-LKA Attention:可变形大核注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了Transformer在医学图像分割的进展,但计算需求限制了模型的深度和分辨率。为此,提出了可变形大核注意力(D-LKA Attention),它使用大卷积核捕捉上下文信息,通过可变形卷积适应数据模式变化。D-LKA Net结合2D和3D版本的D-LKA Attention,提升了医学分割性能。YOLOv8引入了可变形卷积层以增强目标检测的准确性。相关代码和任务配置可在作者博客找到。
|
7月前
|
机器学习/深度学习 缓存 人工智能
麻省理工提出“跨层注意力”,极大优化Transformer缓存
【7月更文挑战第4天】麻省理工学院的研究团队提出了一种新的Transformer优化技术——跨层注意力(CLA),旨在解决大型模型的缓存问题。CLA通过相邻层间共享键值头减半KV缓存,提高内存效率,允许处理更长序列和批量。实验显示,CLA在10亿至30亿参数模型中实现了性能与内存使用的良好平衡,但可能增加计算开销,并非所有模型适用。论文链接:[arXiv:2405.12981](https://arxiv.org/abs/2405.12981)
129 0
|
9月前
|
计算机视觉
【YOLOv8改进】 MSDA:多尺度空洞注意力 (论文笔记+引入代码)
该文介绍了DilateFormer,一种新提出的视觉变换器,它在计算效率和关注接受域之间取得平衡。通过分析ViTs,发现浅层的局部性和稀疏性,提出了多尺度扩张注意力(MSDA),用于局部、稀疏的块交互。DilateFormer结合MSDA块和全局多头自注意力块,形成金字塔架构,实现各视觉任务的顶尖性能。与现有最佳模型相比,在ImageNet-1K分类任务上,DilateFormer性能相当但计算成本降低70%,同时在COCO检测/分割和ADE20K语义分割任务上表现优秀。文章还展示了MSDA的创新点,包括多尺度聚合、局部稀疏交互和减少自注意力冗余。此外,
|
9月前
|
机器学习/深度学习 数据可视化 计算机视觉
【YOLOv8改进】MCA:用于图像识别的深度卷积神经网络中的多维协作注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的创新改进和实战案例,包括多维协作注意力(MCA)机制,它通过三分支架构同时处理通道、高度和宽度注意力,提高CNN性能。MCA设计了自适应组合和门控机制,增强特征表示,且保持轻量化。该模块适用于各种CNN,实验证明其在图像识别任务上的优越性。此外,文章还展示了如何在YOLOv8中引入MCA层的代码实现和相关任务配置。
|
9月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
301 0
|
机器学习/深度学习 编解码 人工智能
深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景
深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景
深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景
|
机器学习/深度学习 自然语言处理 算法
从Transformer到ViT:多模态编码器算法原理解析与实现
从Transformer到ViT:多模态编码器算法原理解析与实现
697 0
|
机器学习/深度学习 自然语言处理 算法
计算机视觉 - Attention机制(附代码)
计算机视觉 - Attention机制(附代码)
270 0
|
机器学习/深度学习 计算机视觉
高效Transformer | 85FPS!CNN + Transformer语义分割的又一境界,真的很快!
高效Transformer | 85FPS!CNN + Transformer语义分割的又一境界,真的很快!
219 0