BurstAttention:可对非常长的序列进行高效的分布式注意力计算

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 研究人员探索了提高LLM注意力机制效率的策略,包括FlashAttention(利用SRAM加速)和RingAttention(分布式多设备处理)。新提出的BurstAttention结合两者,优化跨设备计算与通信,减少40%通信开销,使128K长度序列在8×A100 GPU上的训练速度翻倍。论文于3月发布,但实现未公开

提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力,如FlashAttention,以及利用多设备的分布式系统,如RingAttention。

FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态,而不是依赖于高带宽存储器(HBM)来提高注意力计算速度。

而RingAttention通过将长序列划分为子序列并将其分布在多个设备上进行并行处理来处理长序列。

虽然它们都提高了处理速度和效率,如果将它们组合起来使用是否可以有更大的提高呢?理论上是这样,但是在分布式环境中直接组合这两种方法无法充分利用它们的优势,并且存在兼容性问题。

而最新的研究BurstAttention可以将2者结合,作为RingAttention和FlashAttention之间的桥梁。

BurstAttention是一个创新的框架,它优化了跨设备的计算和通信,增强了内存使用,最小化了通信开销,提高了缓存效率。

BurstAttention在集群中的设备之间分割序列,每个设备通过将序列投影到查询、键和值嵌入中来处理序列的一部分。然后这些片段在设备之间循环,计算本地注意力得分,并将其汇总为全局注意力得分。

在他们的实验中,表明BurstAttention减少了40%的通信开销,并将8×A100 gpu上128K长度序列的训练速度提高了一倍。

这篇论文是3月发布的,但是作者没有提到他们是否会发布他们的实现,所以我们先看看他的论文吧:

https://avoid.overfit.cn/post/5aacdef85b104ff0a9faea9ad84f2a95

目录
相关文章
|
6月前
|
SQL 分布式计算 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
73 0
|
6月前
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
78 0
|
8月前
|
存储 SQL 分布式计算
分布式图计算如何实现?带你一窥图计算执行计划
分布式图计算如何实现?带你一窥图计算执行计划
分布式图计算如何实现?带你一窥图计算执行计划
|
9月前
|
算法 新能源
【前推回代法】含有分布式电源的三相不平衡配电网潮流计算【IEEE33节点】(Matlab代码实现)
【前推回代法】含有分布式电源的三相不平衡配电网潮流计算【IEEE33节点】(Matlab代码实现)
|
存储 安全 大数据
【云周刊】第187期:阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能
阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能,阿里云大数据计算服务MaxCompute命令行工具——odpscmd的操作使用 ,飞天技术汇第27期 大数据产品家族新功能发布会...更多精彩内容,尽在云周刊!
5199 0
|
存储 物联网 大数据
8月23日云栖精选夜读 | 阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能(附论文)
没错 我们就是阿里F4 (阿里云、钉钉、支付宝、天猫) 接下来 说说我们出道这件事 本打算秘密出道 没想到刚出重庆江北机场 就被一群死忠粉团团围住 坐上官方出道指定用车荣威RX8 开启出道之行 这颗蛋蛋也忒大了 (还好车够大) 冒着44度的高温来到重庆 当然不只是为了吃喝玩乐 为重庆智博会站台 才是我们这次出道的真正目的 对了对了 还要介绍一下云栖大会·重庆峰会 毕竟看点多多呀 看点1 工业互联网平台发布 据说,这个平台可以帮助80%的中小企业及制造企业,降低20%以上的开发成本与时间,提高效益。
3099 0
|
存储 固态存储 数据库
阿里推出 PolarFS 分布式文件系统:将存储与计算分开,提升云数据库性能(附论文)
将存储与计算分开来大有意义,对于部署的云数据库而言更是如此。为此,阿里巴巴推出了一种新开发的名为PolarFS的分布式文件系统,旨在确保低延迟和高可用性。这个文件系统与阿里云上自己的PolarDB数据库服务搭配使用。
15074 0
|
存储 边缘计算 物联网
|
人工智能 并行计算 算法
《中国人工智能学会通讯》——8.31 并行与分布式进化计算实现方式
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第8章,第8.31节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1559 0

热门文章

最新文章