7 Papers & Radios | 尤洋团队FastFold上线；1000层的Transformer来了（2）-阿里云开发者社区

7 Papers & Radios | 尤洋团队FastFold上线；1000层的Transformer来了（2）

2023-05-15 147 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | 尤洋团队FastFold上线；1000层的Transformer来了

推荐：LoveLive! 出了一篇 AI 论文：生成模型自动写曲谱。

论文 6：Transformer Quality in Linear Time

作者：Weizhe Hua、Zihang Dai、Hanxiao Liu、Quoc V. Le
论文链接：https://arxiv.org/abs/2202.10447

摘要：来自康奈尔大学、谷歌大脑的研究人员近日提出了一个新模型 FLASH（Fast Linear Attention with a Single Head），首次不仅在质量上与完全增强的 Transformer 相当，而且在现代加速器的上下文大小上真正享有线性可扩展性。与旨在逼近 Transformers 中的多头自注意力 (MHSA) 的现有高效注意力方法不同，谷歌从一个新层设计开始，自然地实现更高质量的逼近。FLASH 分两步开发：

首先设置一个更适合有效近似的新层，引入门控机制来减轻自注意力的负担，产生了下图 2 中的门控注意力单元 (Gated Attention Unit, GAU)。与 Transformer 层相比，每个 GAU 层更便宜。更重要的是，它的质量更少依赖于注意力精度。事实上，小单头、无 softmax 注意力的 GAU 与 Transformers 性能相近。

随后作者提出了一种有效的方法来逼近 GAU 中的二次注意力，从而导致在上下文大小上具有线性复杂度的层变体。其思路是首先将标记分组为块，然后在一个块内使用精确的二次注意力和跨块的快速线性注意力（如下图 4 所示）。在论文中，研究者进一步描述了如何利用此方法自然地推导出一个高效的加速器实现，在实践中做到只需更改几行代码的线性可扩展能力。

在大量实验中，FLASH 在各种任务、数据集和模型尺度上均效果很好。FLASH 在质量上与完全增强的 Transformer (Transformer++) 相比具有竞争力，涵盖了各种实践场景的上下文大小 (512-8K)，同时在现代硬件加速器上实现了线性可扩展。

例如，在质量相当的情况下，FLASH 在 Wiki-40B 上的语言建模实现了 1.2 倍至 4.9 倍的加速，在 Transformer++ 上 C4 上的掩码语言建模实现了 1.0 倍至 4.8 倍的加速。在进一步扩展到 PG-19 (Rae et al., 2019) 之后，FLASH 将 Transformer++ 的训练成本降低了 12.1 倍，并实现了质量的显着提升。

研究者首先提出了门控注意力单元（Gated Attention Unit, GAU），这是一个比 Transformers 更简单但更强的层。

研究者在下图 3 中展示了 GAU 与 Transformers 的比较情况，结果显示对于不同模型大小，GAU 在 TPUs 上的性能可与 Transformers 竞争。需要注意，这些实验是在相对较短的上下文大小（512）上进行的。

推荐：谷歌 Quoc Le 团队新 transformer：线性可扩展，训练成本仅有原版 1/12。

论文 7：FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

作者：Jaideep Pathak 、 Shashank Subramanian 等
论文链接：https://arxiv.org/pdf/2202.11214.pdf

摘要：在近日的一篇论文中，英伟达、劳伦斯伯克利国家实验室、密歇根大学安娜堡分校、莱斯大学等机构的研究者开发了一种基于傅里叶的神经网络预测模型 FourCastNet，它能以 0.25° 的分辨率生成关键天气变量的全球数据驱动预测，相当于赤道附近大约 30×30 km 的空间分辨率和 720×1440 像素的全球网格大小。这使得我们首次能够与欧洲中期天气预报中心（ECMWF）的高分辨率综合预测系统（IFS）模型进行直接比较。

FourCastNet 在节点小时（node-hour）基础上比传统 NWP 模型快约 45,000 倍。FourCastNet 这种数量级的加速以及在高分辨率下前所未有的准确性，使得它能够以很低的成本生成超大规模集合预测。FourCastNet 极大地改善了概率天气预报的效果，使用它可以在几秒钟内生成对飓风、大气层河流和极端降水等事件的大规模集合预报，从而可以实现更及时、更明智的灾难响应。

此外，FourCastNet 对近地表风速的可靠、快速和低廉预测可以改善陆海风电场的风能资源规划。训练 FourCastNet 所需的能量大约等于使用 IFS 模型生成 10 天预测所需的能量（50 个成员）。然而，一旦经过训练，FourCastNet 生成预测所需的能量比 IFS 模型少 12,000 倍。研究者希望 FourCastNet 只训练一次，并且后续微调的能耗可以忽略不计。

在实现技术上，FourCastNet 使用基于傅里叶变换的 token 混合方法 [Guibas et al., 2022] 和 ViT 骨干 [Dosovitskiy et al., 2021]。这一方法基于最近的的傅里叶神经算子，该算子以分辨率不变的方式学习，并在建模流体动力学等具有挑战性的偏微分方程中取得了成功。此外，他们选择 ViT 骨干的原因是它能够很好地建模长程依赖。ViT 和基于傅里叶的 token 方法混合生成了 SOTA 高分辨率模型，它可以解析细粒度的特征，并能够很好地随分辨率和数据集大小扩展。研究者表示，这一方法能够以真正前所未有的高分辨率训练高保真数据驱动的模型。

欧洲中期天气预报中心（ECMWF）提供了一个公开可用的综合数据集 ERA5，该研究使用 ERA5 来训练 FourCastNet。他们专注于两个大气变量，即（1）距离地球表面 10m 处的风速和（2）6 小时总降水量，除此以外，该研究还预测了其他几个变量，包括几个不同垂直高度的位势高度、温度、风速和相对湿度，一些近地表变量，如地面气压和平均海平面气压以等。

整个训练过程是在 64 个 Nvidia A100 GPU 的集群上完成，端到端训练大约需要 16 小时。

该研究选择了一些变量（表 1）来表示大气的瞬时状态：

推荐：速度提升 45000 倍，英伟达用傅里叶模型实现前所未有天气预报准确率。

7 Papers & Radios | 尤洋团队FastFold上线；1000层的Transformer来了（2）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

7 Papers & Radios | 尤洋团队FastFold上线；1000层的Transformer来了（2）

热门文章

最新文章

相关电子书