Transformer | 详细解读Transformer怎样从零训练并超越ResNet？（二）-阿里云开发者社区

Transformer | 详细解读Transformer怎样从零训练并超越ResNet？（二）

2023-05-22 186

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Transformer | 详细解读Transformer怎样从零训练并超越ResNet？（二）

4.3 无需预训练或强大的数据增强ViTs优于ResNets

模型体系结构的性能通常与训练策略合并，其中数据增强起着关键作用。然而，数据增广的设计需要大量的领域专业知识，而且可能无法在图像和视频之间进行转换。由于有了锐度感知优化器SAM，可以删除高级的数据增强，并专注于体系结构本身(使用基本的Inception-style的预处理)。

当使用SAM在ImageNet上从0开始训练时，ViT的准确性(在ImageNet、ImageNet-Real和ImageNet V2上)和健壮性(在ImageNet-R和ImageNet-R上)方面都优于类似和更大的ResNet(在推理时也具有相当的吞吐量)。

ViT-B/16在ImageNet、ImageNet-r和ImageNet-C上分别达到79.9%、26.4%和56.6%的top精度，而对应的ResNet-152则分别达到79.3%、25.7%和52.2%(见表2)。对于小型架构，vit和resnet之间的差距甚至更大。在ImageNet上，ViT-S/16的表现比同样大小的ResNet-50好1.4%，在ImageNet-C上好6.5%。SAM还显著改善了MLP-Mixers的结果。

4.4 SAM后的内在变化

作者对模型进行了更深入的研究，以理解它们如何从本质上改变以减少Hessian的特征值以及除了增强泛化之外的变化意味着什么。

结论1：每个网络组件具有Smoother loss landscapes

在表3中，将整个体系结构的Hessian分解成与每一组参数相关的小的斜对角Hessian块，试图分析在没有SAM训练的模型中，是什么特定的成分导致爆炸。

作者观察到较浅的层具有较大的Hessian特征值，并且第1个linear embedding layer产生sharpest的几何形状。

此外，ViTs中的多头自注意(MSA)和MLP-Mixers中的token mlp(Token mlp)跨空间位置混合信息，其相对较低。SAM一致地降低了所有网络块的。

可以通过递归mlp的Hessian矩阵得到上述发现。设和分别为第k层激活前的值和激活后的值。它们满足，其中为权值矩阵，为激活函数(mlp-mixer中的GELU)。为了简单起见，在这里省略偏置项。Hessian矩阵相对于的对角块可递归计算为:

其中⊗为Kronecker product，为第层的预激活Hessian，L为目标函数。因此，当递归公式反向传播到浅层时，Hessian范数累积，这也解释了为什么表3中第一个块的比最后一个块大得多。

结论2：Greater weight norms

应用SAM后，作者发现激活后的值的范数和权重的范数变得更大(见表3)，说明常用的权重衰减可能不能有效地正则化ViTs和MLP-Mixers。

结论3：MLP-Mixers中较稀疏的active neurons

根据递归公式(3)到(4)，作者确定了另一个影响Hessian的MLP-Mixers的内在度量:激活神经元的数量。

事实上，是由大于零的被激活神经元决定的，因为当输入为负时，GELU的一阶导数变得非常小。因此，活跃的GELU神经元的数量直接与Hessian规范相连。

图2(右)显示了每个块中被激活的神经元的比例，使用ImageNet训练集的10%进行计算。可以看到，SAM极大地减少了前几层被激活神经元的比例，使它们处于更稀疏的状态。这一结果也说明了图像patch的潜在冗余性。

结论4：ViTs的active neurons高度稀疏

虽然公式(3)和(4)只涉及mlp，但仍然可以观察到vit的第1层激活神经元的减少(但不如MLP-Mixers显著)。更有趣的是，作者发现ViT中被激活神经元的比例比ResNets或MLP-Mixers中要小得多——在大多数ViT层中，只有不到5%的神经元的值大于零。换句话说，ViT为网络修剪提供了巨大的潜力。

这种稀疏性也可以解释为什么一个Transformer可以处理多模态信号(视觉、文本和音频)?

结论5：ViTs中有更多的感知注意力Maps

在图3中可视化了classification token的attention map。有趣的是，经过SAM优化的ViT模型能够编码合理的分割信息，比传统SGD优化训练的模型具有更好的可解释性。

结论6：Higher training errors

如图2(左)所示，使用SAM的ViT-B/16比使用vanilla SGD的训练误差更高。当在训练中使用强数据增强时，这种正则化效应也会发生，它迫使网络显式地学习RandAugment中的旋转平移等方差和mixup中的线性插值等先验。然而，增益对不同的训练设置很敏感(第5.2节)，并导致高噪声损失曲线(图2(中间))。

5实验

具有smoother loss geometry的ViTs和MLP-Mixers可以更好地迁移到下游任务。

6参考

[1].When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations.

Transformer | 详细解读Transformer怎样从零训练并超越ResNet？（二）

4.3 无需预训练或强大的数据增强ViTs优于ResNets

4.4 SAM后的内在变化

结论1：每个网络组件具有Smoother loss landscapes

结论2：Greater weight norms

结论3：MLP-Mixers中较稀疏的active neurons

结论4：ViTs的active neurons高度稀疏

结论5：ViTs中有更多的感知注意力Maps

结论6：Higher training errors

5实验

6参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Transformer | 详细解读Transformer怎样从零训练并超越ResNet？（二）

4.3 无需预训练或强大的数据增强ViTs优于ResNets

4.4 SAM后的内在变化

结论1：每个网络组件具有Smoother loss landscapes

结论2：Greater weight norms

结论3：MLP-Mixers中较稀疏的active neurons

结论4：ViTs的active neurons高度稀疏

结论5：ViTs中有更多的感知注意力Maps

结论6：Higher training errors

5实验

6参考

热门文章

最新文章

相关课程

相关电子书

相关实验场景