全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)(二)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)(二)

4. 实验


4.1 图像分类

image.png

如表1所示,AA-ResNet的表现始终明显优于相应的ResNet。在AAResNet-34、-50、-101和-152的基础上,EA-AA-ResNets的Top-1准确率分别提高了1.21%、0.67%、0.80%和0.67%。

4.2 自然语言理解

image.png

BERT-style模型的比较如表3所示。T5-Base和BERT-Large型模型在development set上进行评估,以便与现有Baseline进行比较。其他模型在测试集上进行评估。在不同的下游任务中,EA-BERT比vanilla BERT表现更好。其中,EA-BERT-Base、EA-T5-Base、EA-BERT-Large和EARoBERTa-Large在GLUE基准上的平均得分分别为83.3、84.5、85.0和87.2,比相应Baseline分别增加了2.4、1.1、1.6和0.8个百分点。这种改进可以通过加载现有的检查点并在有限的训练时间内微调额外的参数来实现。

4.3 机器翻译

image.png

Transformer-Lite是一个轻量级架构,所有维度都设置为160,以取代bottleneck结构。Transformer-Base编码器为6层,解码器网络为6层。它有8个head,512维的normal层,2048维的第1层FFN以形成bottleneck结构。如表5所示,EA-based模型在只需要少量额外参数和计算的情况下,对多个数据集和网络架构实现了一致的改进。

4.4 可视化分析

图4显示了ImageNet分类的3个范例案例,其中显示了来自16、17和18层代表性head的Attention Maps。这些层位于网络的中间,对应于一个适当的可视化抽象层。

值得注意的是,AA-ResNet更倾向于提取广泛和模糊的注意力模式。而EA-AA-ResNet则产生了更清晰的Attention Map,并且在3个连续的层次上存在明显的演化趋势。

对于滑雪者的案例,Attention Map成功地捕获了第16层的主要目标。然后,在evolving attention的帮助下,轮廓在第17层变得更加清晰。最后,对第18层进行了进一步的改进,它识别出了一个完整的滑板。其他案例也显示了类似的现象。


5 参考


[1].Evolving Attention with Residual Convolutions


6 推荐阅读


Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)

简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)

Transformer系列 | 更深、更强、更轻巧的Transformer,DeLighT(文末获取论文与源码)

泛化神器 | 李沐老师新作进一步提升模型在多域多的泛化性,CV和NLP均有大幅度提升(文末获取论文)

Backbone | What?没有Normalize也可以起飞?全新Backbone之NF-ResNet(文末获取论文与源码)

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 并行计算
探索深度学习中的Transformer模型及其在自然语言处理中的应用
【10月更文挑战第6天】探索深度学习中的Transformer模型及其在自然语言处理中的应用
98 0
|
1月前
|
机器学习/深度学习 自然语言处理 异构计算
【NLP自然语言处理】初识深度学习模型Transformer
【NLP自然语言处理】初识深度学习模型Transformer
|
4月前
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
194 11
|
4月前
|
机器学习/深度学习 自然语言处理 计算机视觉
Transformer深度学习架构与GPT自然语言处理模型
Transformer和GPT(Generative Pre-trained Transformer)是深度学习和自然语言处理(NLP)领域的两个重要概念,它们之间存在密切的关系但也有明显的不同。
95 2
|
4月前
|
机器学习/深度学习 自然语言处理
大模型概念问题之大模型在生成文本方面有哪些革命性突破
大模型概念问题之大模型在生成文本方面有哪些革命性突破
|
5月前
|
机器学习/深度学习 自然语言处理
【解码未来:Transformer模型家族引领自然语言新纪元】
【解码未来:Transformer模型家族引领自然语言新纪元】
56 1
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer
【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer
|
5月前
|
机器学习/深度学习 自然语言处理 并行计算
基于Transformer模型的自然语言处理新进展
基于Transformer模型的自然语言处理新进展
71 0
|
6月前
|
存储 机器学习/深度学习 自然语言处理
Transformer 自然语言处理(四)
Transformer 自然语言处理(四)
335 0
Transformer 自然语言处理(四)
|
6月前
|
存储 自然语言处理 PyTorch
Transformer 自然语言处理(三)
Transformer 自然语言处理(三)
168 0
Transformer 自然语言处理(三)