7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了(2)

简介: 7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了

推荐:LoveLive! 出了一篇 AI 论文:生成模型自动写曲谱。

论文 6:Transformer Quality in Linear Time


摘要:来自康奈尔大学、谷歌大脑的研究人员近日提出了一个新模型 FLASH(Fast Linear Attention with a Single Head),首次不仅在质量上与完全增强的 Transformer 相当,而且在现代加速器的上下文大小上真正享有线性可扩展性。与旨在逼近 Transformers 中的多头自注意力 (MHSA) 的现有高效注意力方法不同,谷歌从一个新层设计开始,自然地实现更高质量的逼近。FLASH 分两步开发:

首先设置一个更适合有效近似的新层,引入门控机制来减轻自注意力的负担,产生了下图 2 中的门控注意力单元 (Gated Attention Unit, GAU)。与 Transformer 层相比,每个 GAU 层更便宜。更重要的是,它的质量更少依赖于注意力精度。事实上,小单头、无 softmax 注意力的 GAU 与 Transformers 性能相近。

随后作者提出了一种有效的方法来逼近 GAU 中的二次注意力,从而导致在上下文大小上具有线性复杂度的层变体。其思路是首先将标记分组为块,然后在一个块内使用精确的二次注意力和跨块的快速线性注意力(如下图 4 所示)。在论文中,研究者进一步描述了如何利用此方法自然地推导出一个高效的加速器实现,在实践中做到只需更改几行代码的线性可扩展能力。

在大量实验中,FLASH 在各种任务、数据集和模型尺度上均效果很好。FLASH 在质量上与完全增强的 Transformer (Transformer++) 相比具有竞争力,涵盖了各种实践场景的上下文大小 (512-8K),同时在现代硬件加速器上实现了线性可扩展。

例如,在质量相当的情况下,FLASH 在 Wiki-40B 上的语言建模实现了 1.2 倍至 4.9 倍的加速,在 Transformer++ 上 C4 上的掩码语言建模实现了 1.0 倍至 4.8 倍的加速。在进一步扩展到 PG-19 (Rae et al., 2019) 之后,FLASH 将 Transformer++ 的训练成本降低了 12.1 倍,并实现了质量的显着提升。

研究者首先提出了门控注意力单元(Gated Attention Unit, GAU),这是一个比 Transformers 更简单但更强的层。


研究者在下图 3 中展示了 GAU 与 Transformers 的比较情况,结果显示对于不同模型大小,GAU 在 TPUs 上的性能可与 Transformers 竞争。需要注意,这些实验是在相对较短的上下文大小(512)上进行的。


推荐:谷歌 Quoc Le 团队新 transformer:线性可扩展,训练成本仅有原版 1/12。

论文 7:FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS


摘要:在近日的一篇论文中,英伟达、劳伦斯伯克利国家实验室、密歇根大学安娜堡分校、莱斯大学等机构的研究者开发了一种基于傅里叶的神经网络预测模型 FourCastNet,它能以 0.25° 的分辨率生成关键天气变量的全球数据驱动预测,相当于赤道附近大约 30×30 km 的空间分辨率和 720×1440 像素的全球网格大小。这使得我们首次能够与欧洲中期天气预报中心(ECMWF)的高分辨率综合预测系统(IFS)模型进行直接比较。

FourCastNet 在节点小时(node-hour)基础上比传统 NWP 模型快约 45,000 倍。FourCastNet 这种数量级的加速以及在高分辨率下前所未有的准确性,使得它能够以很低的成本生成超大规模集合预测。FourCastNet 极大地改善了概率天气预报的效果,使用它可以在几秒钟内生成对飓风、大气层河流和极端降水等事件的大规模集合预报,从而可以实现更及时、更明智的灾难响应。

此外,FourCastNet 对近地表风速的可靠、快速和低廉预测可以改善陆海风电场的风能资源规划。训练 FourCastNet 所需的能量大约等于使用 IFS 模型生成 10 天预测所需的能量(50 个成员)。然而,一旦经过训练,FourCastNet 生成预测所需的能量比 IFS 模型少 12,000 倍。研究者希望 FourCastNet 只训练一次,并且后续微调的能耗可以忽略不计。

在实现技术上,FourCastNet 使用基于傅里叶变换的 token 混合方法 [Guibas et al., 2022] 和 ViT 骨干 [Dosovitskiy et al., 2021]。这一方法基于最近的的傅里叶神经算子,该算子以分辨率不变的方式学习,并在建模流体动力学等具有挑战性的偏微分方程中取得了成功。此外,他们选择 ViT 骨干的原因是它能够很好地建模长程依赖。ViT 和基于傅里叶的 token 方法混合生成了 SOTA 高分辨率模型,它可以解析细粒度的特征,并能够很好地随分辨率和数据集大小扩展。研究者表示,这一方法能够以真正前所未有的高分辨率训练高保真数据驱动的模型。

欧洲中期天气预报中心(ECMWF)提供了一个公开可用的综合数据集 ERA5,该研究使用 ERA5 来训练 FourCastNet。他们专注于两个大气变量,即(1)距离地球表面 10m 处的风速和(2)6 小时总降水量,除此以外,该研究还预测了其他几个变量,包括几个不同垂直高度的位势高度、温度、风速和相对湿度,一些近地表变量,如地面气压和平均海平面气压以等。

整个训练过程是在 64 个 Nvidia A100 GPU 的集群上完成,端到端训练大约需要 16 小时。


该研究选择了一些变量(表 1)来表示大气的瞬时状态:


推荐:速度提升 45000 倍,英伟达用傅里叶模型实现前所未有天气预报准确率。

相关文章
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之负采样版本DSSM双塔模型训练好之后,怎么分别获取user tower的embedding和item tower的embedding
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉
152 0
7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了(1)
7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了
134 0
|
机器学习/深度学习 存储 人工智能
7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM
7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM
192 0
|
人工智能 运维 自然语言处理
7 Papers & Radios | 华为配置管理研究获SIGCOMM 2022最佳论文;用即插即用模块改进ViT和卷积模型
7 Papers & Radios | 华为配置管理研究获SIGCOMM 2022最佳论文;用即插即用模块改进ViT和卷积模型
120 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning
7 Papers & Radios | 无需注意力的预训练;被GPT带飞的In-Context Learning
135 0
|
机器学习/深度学习 编解码 人工智能
7 Papers & Radios | Bengio等用GFlowNets统一生成模型;首个黑箱防御框架
7 Papers & Radios | Bengio等用GFlowNets统一生成模型;首个黑箱防御框架
113 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进
7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
7 Papers & Radios | 无残差连接训练深度transformer;DeepMind写代码AI登Science封面
124 0
|
机器学习/深度学习 人工智能 编解码
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(1)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
251 0

热门文章

最新文章