一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?(2)

简介: 一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?

Scaling 视觉 Transformer

深度学习和规模是相关的。事实上,规模是很多 SOTA 实现的关键因素。在这项研究中,来自 Google Brain Research 的作者训练了一个稍微修改过的 ViT 模型,它有 20 亿个参数,并在 ImageNet 上达到了 90.45 % 的 top-1 准确率。这种过度参数化的一般化模型在少样本学习上进行了测试,每类只有 10 个示例情况下。在 ImageNet 上达到了 84.86% 的 top-1 准确率。

小样本学习是指在样本数量极其有限的情况下对模型进行微调。小样本学习的目标通过将获得的预训练知识稍微适应特定任务来激励泛化。如果成功地预训练了大型模型,那么在对下游任务非常有限的理解(仅由几个示例提供)的情况下表现良好是有意义的。


以下是本文的一些核心贡献和主要结果:

  • 模型大小可能会限制表征质量,前提是有足够的数据来提供它;
  • 大型模型受益于额外的监督数据,甚至超过 1B 图像。



上图描绘了从 300M 图像数据集 (JFT-300M) 切换到 30 亿图像 (JFT-3B) 而不进行任何进一步缩放的效果。中型 (B/32) 和大型 (L/16) 模型都受益于添加数据,大致是一个常数因子。结果是在整个训练过程中通过小样本(线性)评估获得的。

  • 大模型的样本效率更高,以更少的可见图像达到相同的错误率水平。
  • 为了节省内存,他们删除了类 token (cls)。相反,他们评估了全局平均池化和多头注意力池化,以聚合所有 patch token 的表征。
  • 他们对头部和称为「主干」的其余层使用了不同的权重衰减。作者在下图中很好地证明了这一点。框值是小样本精度,而横轴和纵轴分别表示主干和头部的权重衰减。令人惊讶的是,头部的更强衰减会产生最好的结果。作者推测,头部的强烈权重衰减会导致表示具有更大的类之间的余量。



这或许是可以更广泛地应用于预训练 ViT 的最有趣的发现。

他们在训练开始时使用了热身阶段,在训练结束时使用了冷却阶段,其中学习率线性退火为零。此外,他们使用了 Adafactor 优化器,与传统的 Adam 相比,内存开销为 50%。

在同一个波长,你可以找到另一个大规模的研究:《如何训练你的 ViT?视觉 Transformer 中的数据、增强和正则化》(How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers)

替代自注意力:独立 token + 通道混合方式

众所周知,自注意力可以作为一种具有快速权重的信息路由机制。到目前为止,有 3 篇论文讲述了同样的故事:用 2 个信息混合层替换自注意力;一种用于混合 token(投影 patch 向量),一种用于混合通道 / 特征信息。

MLP-Mixer

MLP-Mixer 包含两个 MLP 层:第一个独立应用于图像 patch(即「混合」每个位置的特征),另一个跨 patch(即「混合」空间信息)。

MLP-Mixer 架构。

XCiT:互协方差图像 Transformer

另一个是最近的架构 XCiT,旨在修改 ViT 的核心构建 block:应用于 token 维度的自注意力。

XCiT 架构。

XCA:对于信息混合,作者提出了一种交叉协方差注意力 (XCA) 函数,该函数根据 token 的特征维度而不是根据其本身进行操作。重要的是,此方法仅适用于 queries、keys、values 集的 L2 归一化。L2 范数用 K 和 Q 字母上方的 hat 表示。乘法的结果在 softmax 之前也归一化为 [-1,1] 。

局部 Patch 交互:为了实现 patch 之间的显式通信,研究者添加了两个 depth-wise 3×3 卷积层,中间有批归一化和 GELU 非线性。Depth-wise 卷积独立应用于每个通道(这里的 patch)。


ConvMixer(加链接:patch 成为了 ALL You Need?挑战 ViT、MLP-Mixer 的简单模型来了)

自注意力和 MLP 理论上是更通用的建模机制,因为它们允许更大的感受野和内容感知行为。尽管如此,卷积的归纳偏差在计算机视觉任务中具有不可否认的成果。

受此启发,研究者提出了另一种基于卷积网络的变体,称为 ConvMixer。主要思想是它直接对作为输入的 patch 进行操作,分离空间和通道维度的混合,并在整个网络中保持相同的大小和分辨率。


更具体地说,depthwise 卷积负责混合空间位置,而逐点卷积(1x1x 通道内核)用于混合通道位置,如下图所示:


通过选择较大的内核大小来创建较大的感受野,可以实现远距离空间位置的混合。

多尺度视觉 Transformer

CNN 主干架构受益于通道的逐渐增加,同时降低了特征图的空间维度。类似地,多尺度视觉 Transformer (MViT) 利用了将多尺度特征层次结构与视觉 Transformer 模型相结合的想法。在实践中,作者从 3 个通道的初始图像大小开始,逐渐扩展(分层)通道容量,同时降低空间分辨率。

因此,创建了一个多尺度的特征金字塔。直观地说,早期层将学习高空间与简单的低级视觉信息,而更深层负责复杂的高维特征。


视频分类:Timesformer

在图像任务成功后,视觉 Transformer 被应用于视频识别。这里介绍两种架构:

用于视频识别的基于 block 与基于架构 / 基于模块的时空注意力架构。

  • 右图:缩小架构级别。所提出的方法将空间 Transformer 应用于投影图像 block,然后有另一个网络负责捕获时间相关性。这类似于基于视频处理的 CNN+LSTM 获胜策略。
  • 左图:可以在自注意力级别实现的时空注意力,红框中是最佳组合。通过首先将图像帧视为 token 来在时域中顺序应用注意力。然后,在 MLP 投影之前应用两个空间维度的组合空间注意力。下面是该方法的 t-SNE 可视化:


使用 Timesformer t-SNE 进行特征可视化。

「每个视频都可视化为一个点。属于同一动作类别的视频具有相同的颜色。具有分割时空注意力的 TimeSformer 比具有仅空间注意力或 ViT 的 TimeSformer 在语义上学习更多可分离的特征。」


语义分割中的 ViT:SegFormer

英伟达提出了一种配置良好的设置,名为 SegFormer。SegFormer 的设计组件很有趣。首先,它由一个输出多尺度特征的分层 Transformer 编码器组成。其次,它不需要位置编码,因为当测试分辨率与训练不同时,这会降低性能。

SegFormer 使用一个超级简单的 MLP 解码器来聚合编码器的多尺度特征。与 ViT 不同的是,SegFormer 采用了小的图像 patch,例如 4 x 4 这种,众所周知,这有利于密集预测任务。所提出的 Transformer 编码器输出 1/4、1/8、1/16、1/32 多级特征的原始图像分辨率。这些多级特征提供给 MLP 解码器来预测分割掩码。


Mix-FFN:为了减轻位置编码的影响,研究者使用 零填充的 3 × 3 卷积层来泄漏位置信息。Mix-FFN 可以表述为:


高效的自注意力是 PVT 中提出的,它使用缩减比率来减少序列的长度。结果可以通过可视化有效感受野 (ERF) 来定性测量:


「SegFormer 的编码器自然地产生局部注意力,类似于较低阶段的卷积,同时能够输出高度非局部注意力,有效地捕捉第 4 阶段的上下文。如放大补丁所示,MLP 头部(蓝色框)的 ERF 与 Stage-4(红色框)不同,除了非局部注意力之外,局部注意力明显更强。」


医学成像中的视觉 Transformer:Unet + ViT = UNETR

尽管在医学成像方面还有其他尝试,但 UNETR 提供了最有说服力的结果。在这种方法中,ViT 适用于 3D 医学图像分割。研究表明,简单的适应足以改善几个 3D 分割任务的基线。

本质上,UNETR 使用 Transformer 作为编码器来学习输入音频的序列表示。与 Unet 模型类似,它旨在有效捕获全局多尺度信息,这些信息可以通过长残差连接传递给解码器,以不同的分辨率形成残差连接以计算最终的语义分割输出。

UNETR 架构。

以下是论文的一些分割结果:


原文链接:https://theaisummer.com/transformers-computer-vision/?hss_channel=tw-1259466268505243649&continueFlag=8cde49e773efaa2b87399c8f547da8fe

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
【7月更文挑战第21天】历经五年研发,斯坦福、UCSD等顶尖学府联合推出TTT架构,革新NLP领域。此架构以线性复杂度处理长序列,增强表达力及泛化能力,自监督学习下,测试阶段动态调整隐藏状态,显著提升效率与准确性。实验显示,TTT在语言模型与长序列任务中超越Transformer,论文详述于此:[https://arxiv.org/abs/2407.04620](https://arxiv.org/abs/2407.04620)。尽管如此,TTT仍需克服内存与计算效率挑战。
26 2
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
58 9
|
24天前
|
机器学习/深度学习 自然语言处理 计算机视觉
Transformer深度学习架构与GPT自然语言处理模型
Transformer和GPT(Generative Pre-trained Transformer)是深度学习和自然语言处理(NLP)领域的两个重要概念,它们之间存在密切的关系但也有明显的不同。
32 2
|
2天前
|
机器学习/深度学习 自然语言处理
Transformer架构为何能统治NLP领域
Transformer架构为何能统治NLP领域
|
1月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
39 2
|
2月前
|
机器学习/深度学习 人工智能 监控
论文介绍:Masked-attention Mask Transformer (Mask2Former)——通用图像分割的新架构
【5月更文挑战第24天】Mask2Former,一种新型的图像分割架构,采用遮蔽注意力机制聚焦局部特征,提升模型收敛速度和性能,在COCO、Cityscapes等数据集上刷新记录。其元架构结合背景特征提取器、像素解码器和Transformer解码器,实现高效训练和性能提升。尽管在处理小对象和泛化能力上仍有局限,但Mask2Former为通用图像分割开辟了新路径。[链接](https://arxiv.org/abs/2112.01527)
94 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
86 5
|
2月前
|
机器学习/深度学习 自然语言处理 并行计算
一文搞懂Transformer架构的三种注意力机制
一文搞懂Transformer架构的三种注意力机制
296 1
|
1月前
|
机器学习/深度学习
【从零开始学习深度学习】23. CNN中的多通道输入及多通道输出计算方式及1X1卷积层介绍
【从零开始学习深度学习】23. CNN中的多通道输入及多通道输出计算方式及1X1卷积层介绍
【从零开始学习深度学习】23. CNN中的多通道输入及多通道输出计算方式及1X1卷积层介绍
|
1月前
|
机器学习/深度学习 算法 计算机视觉
卷积神经网络(CNN)的工作原理深度解析
【6月更文挑战第14天】本文深度解析卷积神经网络(CNN)的工作原理。CNN由输入层、卷积层、激活函数、池化层、全连接层和输出层构成。卷积层通过滤波器提取特征,激活函数增加非线性,池化层降低维度。全连接层整合特征,输出层根据任务产生预测。CNN通过特征提取、整合、反向传播和优化进行学习。尽管存在计算量大、参数多等问题,但随着技术发展,CNN在计算机视觉领域的潜力将持续增长。

热门文章

最新文章