7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了(2)

简介: 7 Papers & Radios | 尤洋团队FastFold上线;1000层的Transformer来了

推荐:LoveLive! 出了一篇 AI 论文:生成模型自动写曲谱。

论文 6:Transformer Quality in Linear Time


摘要:来自康奈尔大学、谷歌大脑的研究人员近日提出了一个新模型 FLASH(Fast Linear Attention with a Single Head),首次不仅在质量上与完全增强的 Transformer 相当,而且在现代加速器的上下文大小上真正享有线性可扩展性。与旨在逼近 Transformers 中的多头自注意力 (MHSA) 的现有高效注意力方法不同,谷歌从一个新层设计开始,自然地实现更高质量的逼近。FLASH 分两步开发:

首先设置一个更适合有效近似的新层,引入门控机制来减轻自注意力的负担,产生了下图 2 中的门控注意力单元 (Gated Attention Unit, GAU)。与 Transformer 层相比,每个 GAU 层更便宜。更重要的是,它的质量更少依赖于注意力精度。事实上,小单头、无 softmax 注意力的 GAU 与 Transformers 性能相近。

随后作者提出了一种有效的方法来逼近 GAU 中的二次注意力,从而导致在上下文大小上具有线性复杂度的层变体。其思路是首先将标记分组为块,然后在一个块内使用精确的二次注意力和跨块的快速线性注意力(如下图 4 所示)。在论文中,研究者进一步描述了如何利用此方法自然地推导出一个高效的加速器实现,在实践中做到只需更改几行代码的线性可扩展能力。

在大量实验中,FLASH 在各种任务、数据集和模型尺度上均效果很好。FLASH 在质量上与完全增强的 Transformer (Transformer++) 相比具有竞争力,涵盖了各种实践场景的上下文大小 (512-8K),同时在现代硬件加速器上实现了线性可扩展。

例如,在质量相当的情况下,FLASH 在 Wiki-40B 上的语言建模实现了 1.2 倍至 4.9 倍的加速,在 Transformer++ 上 C4 上的掩码语言建模实现了 1.0 倍至 4.8 倍的加速。在进一步扩展到 PG-19 (Rae et al., 2019) 之后,FLASH 将 Transformer++ 的训练成本降低了 12.1 倍,并实现了质量的显着提升。

研究者首先提出了门控注意力单元(Gated Attention Unit, GAU),这是一个比 Transformers 更简单但更强的层。


研究者在下图 3 中展示了 GAU 与 Transformers 的比较情况,结果显示对于不同模型大小,GAU 在 TPUs 上的性能可与 Transformers 竞争。需要注意,这些实验是在相对较短的上下文大小(512)上进行的。


推荐:谷歌 Quoc Le 团队新 transformer:线性可扩展,训练成本仅有原版 1/12。

论文 7:FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS


摘要:在近日的一篇论文中,英伟达、劳伦斯伯克利国家实验室、密歇根大学安娜堡分校、莱斯大学等机构的研究者开发了一种基于傅里叶的神经网络预测模型 FourCastNet,它能以 0.25° 的分辨率生成关键天气变量的全球数据驱动预测,相当于赤道附近大约 30×30 km 的空间分辨率和 720×1440 像素的全球网格大小。这使得我们首次能够与欧洲中期天气预报中心(ECMWF)的高分辨率综合预测系统(IFS)模型进行直接比较。

FourCastNet 在节点小时(node-hour)基础上比传统 NWP 模型快约 45,000 倍。FourCastNet 这种数量级的加速以及在高分辨率下前所未有的准确性,使得它能够以很低的成本生成超大规模集合预测。FourCastNet 极大地改善了概率天气预报的效果,使用它可以在几秒钟内生成对飓风、大气层河流和极端降水等事件的大规模集合预报,从而可以实现更及时、更明智的灾难响应。

此外,FourCastNet 对近地表风速的可靠、快速和低廉预测可以改善陆海风电场的风能资源规划。训练 FourCastNet 所需的能量大约等于使用 IFS 模型生成 10 天预测所需的能量(50 个成员)。然而,一旦经过训练,FourCastNet 生成预测所需的能量比 IFS 模型少 12,000 倍。研究者希望 FourCastNet 只训练一次,并且后续微调的能耗可以忽略不计。

在实现技术上,FourCastNet 使用基于傅里叶变换的 token 混合方法 [Guibas et al., 2022] 和 ViT 骨干 [Dosovitskiy et al., 2021]。这一方法基于最近的的傅里叶神经算子,该算子以分辨率不变的方式学习,并在建模流体动力学等具有挑战性的偏微分方程中取得了成功。此外,他们选择 ViT 骨干的原因是它能够很好地建模长程依赖。ViT 和基于傅里叶的 token 方法混合生成了 SOTA 高分辨率模型,它可以解析细粒度的特征,并能够很好地随分辨率和数据集大小扩展。研究者表示,这一方法能够以真正前所未有的高分辨率训练高保真数据驱动的模型。

欧洲中期天气预报中心(ECMWF)提供了一个公开可用的综合数据集 ERA5,该研究使用 ERA5 来训练 FourCastNet。他们专注于两个大气变量,即(1)距离地球表面 10m 处的风速和(2)6 小时总降水量,除此以外,该研究还预测了其他几个变量,包括几个不同垂直高度的位势高度、温度、风速和相对湿度,一些近地表变量,如地面气压和平均海平面气压以等。

整个训练过程是在 64 个 Nvidia A100 GPU 的集群上完成,端到端训练大约需要 16 小时。


该研究选择了一些变量(表 1)来表示大气的瞬时状态:


推荐:速度提升 45000 倍,英伟达用傅里叶模型实现前所未有天气预报准确率。

相关文章
|
Python
python 获取剪切板的内容
python 获取剪切板的内容
370 0
|
2月前
|
存储 并行计算 数据可视化
大模型应用:GPU的黑盒拆解:可视化看透大模型并行计算的底层逻辑.67
本文深入解析GPU核心架构与大模型算力优化原理,涵盖SM流式多处理器、显存、显存控制器、PCIe接口等关键组件,详解线程级/指令级并行及张量核心加速机制,并通过全流程耗时分析与任务拆分可视化,揭示“数据传输是主要瓶颈”的核心结论,助力高效部署大模型。
401 6
|
9月前
|
PyTorch 编译器 算法框架/工具
TorchDynamo源码解析:从字节码拦截到性能优化的设计与实践
本文深入解析PyTorch中TorchDynamo的核心架构与实现机制,结合源码分析,为开发者提供基于Dynamo扩展开发的技术指导。内容涵盖帧拦截、字节码分析、FX图构建、守卫机制、控制流处理等关键技术,揭示其动态编译优化原理与挑战。
533 0
TorchDynamo源码解析:从字节码拦截到性能优化的设计与实践
|
Ubuntu 应用服务中间件 网络安全
Nginx伪流媒体服务器搭建详细说明以及案例
Nginx伪流媒体服务器搭建步骤如下:1. 安装Nginx,根据系统选择命令;2. 编辑配置文件(/etc/nginx/nginx.conf),添加mp4相关设置;3. 创建视频目录/usr/share/nginx/html/videos并上传视频;4. 重启Nginx应用更改;5. 通过浏览器访问视频,如http://your_server_ip/videos/example.mp4。注意启用mp4模块,确保视频格式支持伪流媒体播放。
700 159
|
9月前
|
数据采集 缓存 JSON
GitHub 开源爆款工具|MediaCrawler:程序员零门槛采集抖音/小红书/B站等社交评论,30K star 背后的场景实战揭秘!
MediaCrawler 是一个支持多平台的社交媒体数据爬虫工具,覆盖小红书、抖音、B站等主流平台,提供关键词/ID爬取、评论采集、登录态缓存、代理池等功能,结合 Playwright 实现浏览器模拟,降低逆向难度,适合内容运营、数据分析等场景,开源免费,使用简便。
4608 0
|
人工智能 自然语言处理 搜索推荐
如何让智能客服像真人一样对话?容联七陌揭秘:多Agent大模型
科技云报到原创。 经历了多年的“答非所问”、“一问三不知”,很多人已经厌倦了所谓的“智能客服”。哪怕是技术已经非常成熟、可以模拟真人发音的外呼机器人,也会因为“机感”重而被用户迅速挂机或转向人工客服。 智能客服似乎遇到了一道坎,在理解用户、和用户对话方面,始终无法实现真正的“智能”。然而大模型技术的出现,让智能客服看到了前所未有的曙光——基于大模型特有的生成式技术和智能的涌现,让智能客服越来越逼近人们想象中的样子。 但问题是,仅有大模型就够了吗?大模型技术要如何引入智能客服才能落地?落地后的大模型究竟如何在智能客服具体场景中发挥作用?又能为客服行业带来了哪些改变?更进一步,对于企业和
1157 2
如何让智能客服像真人一样对话?容联七陌揭秘:多Agent大模型
|
NoSQL Redis
redis_cluster集群启动失败问题解决方案
删除每个节点的.aof |.rdb | nodes-*.conf
412 0
|
JavaScript
Element el-check 多选框详解
本文目录 1. 用途 2. 普通多选框 3. 带边框的多选框 4. 多选框组 5. 按钮样式的多选框组 6. 多选框组选中数量限制 7. 选项通过变量自动生成 8. 小结
1329 0
Element el-check 多选框详解
|
前端开发 JavaScript
前端 CSS 经典:CSS 原子化
前端 CSS 经典:CSS 原子化
363 0
|
自动驾驶 5G 调度