全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)（二）

2023-05-22 138

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)（二）

4. 实验

4.1 图像分类

如表1所示，AA-ResNet的表现始终明显优于相应的ResNet。在AAResNet-34、-50、-101和-152的基础上，EA-AA-ResNets的Top-1准确率分别提高了1.21%、0.67%、0.80%和0.67%。

4.2 自然语言理解

BERT-style模型的比较如表3所示。T5-Base和BERT-Large型模型在development set上进行评估，以便与现有Baseline进行比较。其他模型在测试集上进行评估。在不同的下游任务中，EA-BERT比vanilla BERT表现更好。其中，EA-BERT-Base、EA-T5-Base、EA-BERT-Large和EARoBERTa-Large在GLUE基准上的平均得分分别为83.3、84.5、85.0和87.2，比相应Baseline分别增加了2.4、1.1、1.6和0.8个百分点。这种改进可以通过加载现有的检查点并在有限的训练时间内微调额外的参数来实现。

4.3 机器翻译

Transformer-Lite是一个轻量级架构，所有维度都设置为160，以取代bottleneck结构。Transformer-Base编码器为6层，解码器网络为6层。它有8个head，512维的normal层，2048维的第1层FFN以形成bottleneck结构。如表5所示，EA-based模型在只需要少量额外参数和计算的情况下，对多个数据集和网络架构实现了一致的改进。

4.4 可视化分析

图4显示了ImageNet分类的3个范例案例，其中显示了来自16、17和18层代表性head的Attention Maps。这些层位于网络的中间，对应于一个适当的可视化抽象层。

值得注意的是，AA-ResNet更倾向于提取广泛和模糊的注意力模式。而EA-AA-ResNet则产生了更清晰的Attention Map，并且在3个连续的层次上存在明显的演化趋势。

对于滑雪者的案例，Attention Map成功地捕获了第16层的主要目标。然后，在evolving attention的帮助下，轮廓在第17层变得更加清晰。最后，对第18层进行了进一步的改进，它识别出了一个完整的滑板。其他案例也显示了类似的现象。

5 参考

[1].Evolving Attention with Residual Convolutions

简单涨点 | Flow-Mixup: 对含有损坏标签的多标签医学图像进行分类(优于Mixup和Maniflod Mixup)

Transformer系列 | 更深、更强、更轻巧的Transformer，DeLighT(文末获取论文与源码)

泛化神器 | 李沐老师新作进一步提升模型在多域多的泛化性，CV和NLP均有大幅度提升(文末获取论文)

Backbone | What?没有Normalize也可以起飞？全新Backbone之NF-ResNet(文末获取论文与源码)

全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)（二）

4. 实验

4.1 图像分类

4.2 自然语言理解

4.3 机器翻译

4.4 可视化分析

5 参考

6 推荐阅读

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

全领域涨点 | Transformer携Evolving Attention在CV与NLP领域全面涨点(文末送书)（二）

4. 实验

4.1 图像分类

4.2 自然语言理解

4.3 机器翻译

4.4 可视化分析

5 参考

6 推荐阅读

热门文章

最新文章

相关课程

相关电子书

相关实验场景