Transformer | 详细解读Transformer怎样从零训练并超越ResNet?(二)

简介: Transformer | 详细解读Transformer怎样从零训练并超越ResNet?(二)

4.3 无需预训练或强大的数据增强ViTs优于ResNets

模型体系结构的性能通常与训练策略合并,其中数据增强起着关键作用。然而,数据增广的设计需要大量的领域专业知识,而且可能无法在图像和视频之间进行转换。由于有了锐度感知优化器SAM,可以删除高级的数据增强,并专注于体系结构本身(使用基本的Inception-style的预处理)。

当使用SAM在ImageNet上从0开始训练时,ViT的准确性(在ImageNet、ImageNet-Real和ImageNet V2上)和健壮性(在ImageNet-R和ImageNet-R上)方面都优于类似和更大的ResNet(在推理时也具有相当的吞吐量)。

ViT-B/16在ImageNet、ImageNet-r和ImageNet-C上分别达到79.9%、26.4%和56.6%的top精度,而对应的ResNet-152则分别达到79.3%、25.7%和52.2%(见表2)。对于小型架构,vit和resnet之间的差距甚至更大。在ImageNet上,ViT-S/16的表现比同样大小的ResNet-50好1.4%,在ImageNet-C上好6.5%。SAM还显著改善了MLP-Mixers的结果。

4.4 SAM后的内在变化

作者对模型进行了更深入的研究,以理解它们如何从本质上改变以减少Hessian的特征值以及除了增强泛化之外的变化意味着什么。

结论1:每个网络组件具有Smoother loss landscapes

在表3中,将整个体系结构的Hessian分解成与每一组参数相关的小的斜对角Hessian块,试图分析在没有SAM训练的模型中,是什么特定的成分导致爆炸。

作者观察到较浅的层具有较大的Hessian特征值,并且第1个linear embedding layer产生sharpest的几何形状。

此外,ViTs中的多头自注意(MSA)和MLP-Mixers中的token mlp(Token mlp)跨空间位置混合信息,其相对较低。SAM一致地降低了所有网络块的。

可以通过递归mlp的Hessian矩阵得到上述发现。设和分别为第k层激活前的值和激活后的值。它们满足,其中为权值矩阵,为激活函数(mlp-mixer中的GELU)。为了简单起见,在这里省略偏置项。Hessian矩阵相对于的对角块可递归计算为:

image.png

其中⊗为Kronecker product,为第层的预激活Hessian,L为目标函数。因此,当递归公式反向传播到浅层时,Hessian范数累积,这也解释了为什么表3中第一个块的比最后一个块大得多。

image.png

结论2:Greater weight norms

应用SAM后,作者发现激活后的值的范数和权重的范数变得更大(见表3),说明常用的权重衰减可能不能有效地正则化ViTs和MLP-Mixers。

结论3:MLP-Mixers中较稀疏的active neurons

根据递归公式(3)到(4),作者确定了另一个影响Hessian的MLP-Mixers的内在度量:激活神经元的数量。

事实上,是由大于零的被激活神经元决定的,因为当输入为负时,GELU的一阶导数变得非常小。因此,活跃的GELU神经元的数量直接与Hessian规范相连。

image.png

图2(右)显示了每个块中被激活的神经元的比例,使用ImageNet训练集的10%进行计算。可以看到,SAM极大地减少了前几层被激活神经元的比例,使它们处于更稀疏的状态。这一结果也说明了图像patch的潜在冗余性。

结论4:ViTs的active neurons高度稀疏

虽然公式(3)和(4)只涉及mlp,但仍然可以观察到vit的第1层激活神经元的减少(但不如MLP-Mixers显著)。更有趣的是,作者发现ViT中被激活神经元的比例比ResNets或MLP-Mixers中要小得多——在大多数ViT层中,只有不到5%的神经元的值大于零。换句话说,ViT为网络修剪提供了巨大的潜力。

这种稀疏性也可以解释为什么一个Transformer可以处理多模态信号(视觉、文本和音频)?

结论5:ViTs中有更多的感知注意力Maps

image.png

在图3中可视化了classification token的attention map。有趣的是,经过SAM优化的ViT模型能够编码合理的分割信息,比传统SGD优化训练的模型具有更好的可解释性。

结论6:Higher training errors

如图2(左)所示,使用SAM的ViT-B/16比使用vanilla SGD的训练误差更高。当在训练中使用强数据增强时,这种正则化效应也会发生,它迫使网络显式地学习RandAugment中的旋转平移等方差和mixup中的线性插值等先验。然而,增益对不同的训练设置很敏感(第5.2节),并导致高噪声损失曲线(图2(中间))。


5实验


具有smoother loss geometry的ViTs和MLP-Mixers可以更好地迁移到下游任务。


6参考


[1].When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations.

相关文章
|
3月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
计算机视觉
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(二)
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(二)
128 0
|
机器学习/深度学习 编解码 计算机视觉
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(一)
Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地,超越ResNet、CSWin(一)
218 0
|
机器学习/深度学习 vr&ar 计算机视觉
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(二)
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(二)
234 0
|
机器学习/深度学习 自然语言处理 算法
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(一)
ShiftViT用Swin Transformer的精度跑赢ResNet的速度,论述ViT的成功不在注意力!(一)
237 0
|
机器学习/深度学习 数据挖掘 计算机视觉
全面超越Swin Transformer | Facebook用ResNet思想升级MViT(二)
全面超越Swin Transformer | Facebook用ResNet思想升级MViT(二)
180 0
|
机器学习/深度学习 编解码 数据可视化
全面超越Swin Transformer | Facebook用ResNet思想升级MViT(一)
全面超越Swin Transformer | Facebook用ResNet思想升级MViT(一)
291 0
卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!(二)
卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!(二)
227 0
|
机器学习/深度学习 文件存储 C++
卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!(一)
卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!(一)
319 0
|
7月前
|
机器学习/深度学习 PyTorch 测试技术

热门文章

最新文章