4. 实验
4.1 图像分类
如表1所示,AA-ResNet的表现始终明显优于相应的ResNet。在AAResNet-34、-50、-101和-152的基础上,EA-AA-ResNets的Top-1准确率分别提高了1.21%、0.67%、0.80%和0.67%。
4.2 自然语言理解
BERT-style模型的比较如表3所示。T5-Base和BERT-Large型模型在development set上进行评估,以便与现有Baseline进行比较。其他模型在测试集上进行评估。在不同的下游任务中,EA-BERT比vanilla BERT表现更好。其中,EA-BERT-Base、EA-T5-Base、EA-BERT-Large和EARoBERTa-Large在GLUE基准上的平均得分分别为83.3、84.5、85.0和87.2,比相应Baseline分别增加了2.4、1.1、1.6和0.8个百分点。这种改进可以通过加载现有的检查点并在有限的训练时间内微调额外的参数来实现。
4.3 机器翻译
Transformer-Lite是一个轻量级架构,所有维度都设置为160,以取代bottleneck结构。Transformer-Base编码器为6层,解码器网络为6层。它有8个head,512维的normal层,2048维的第1层FFN以形成bottleneck结构。如表5所示,EA-based模型在只需要少量额外参数和计算的情况下,对多个数据集和网络架构实现了一致的改进。
4.4 可视化分析
图4显示了ImageNet分类的3个范例案例,其中显示了来自16、17和18层代表性head的Attention Maps。这些层位于网络的中间,对应于一个适当的可视化抽象层。
值得注意的是,AA-ResNet更倾向于提取广泛和模糊的注意力模式。而EA-AA-ResNet则产生了更清晰的Attention Map,并且在3个连续的层次上存在明显的演化趋势。
对于滑雪者的案例,Attention Map成功地捕获了第16层的主要目标。然后,在evolving attention的帮助下,轮廓在第17层变得更加清晰。最后,对第18层进行了进一步的改进,它识别出了一个完整的滑板。其他案例也显示了类似的现象。
5 参考
[1].Evolving Attention with Residual Convolutions
6 推荐阅读
Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)
简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)
Transformer系列 | 更深、更强、更轻巧的Transformer,DeLighT(文末获取论文与源码)
泛化神器 | 李沐老师新作进一步提升模型在多域多的泛化性,CV和NLP均有大幅度提升(文末获取论文)
Backbone | What?没有Normalize也可以起飞?全新Backbone之NF-ResNet(文末获取论文与源码)