备案控制台

开发者社区云计算文章正文

显存优化综述

2023-07-07 488

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 显存优化综述

动态图和静态图

动态图是边计算边搭建计算图，中间结果一目了然。

静态图是先搭建计算图，最后喂入输入，直接出结果。

因为静态图在编译的时候进行了一些优化，比如改变了代码的计算过程，以利于GPU更好的并行计算，那么想debug看中间结果就很困难了，有时候看到的和期望的可能会有些出入。另外就是每次当我们搭建完一个动态计算图，然后在反向传播结束之后，整个计算图就在内存中被释放了。如果想再次使用的话，必须从头再搭一遍。

静态图显存优化

对于大网络结构的训练场景，在静态图上的显存优化主要可以分为三个方向：

静态显存分配。由于获得了整张计算图，所以可以去分析每一个 tensor 和每个算子的生命周期。对于生命周期没有重叠的算子，它们是可以共享显存的。

梯度检查点（用计算换显存）。设置一些梯度检查点，剩下的中间结果就先释放掉，如果将来在反向传播的过程中发现前向结果不在显存中，就找到最近的梯度检查点，恢复出被释放的 tensor。

内存交换（用带宽换显存）。把暂时不用的数据从 GPU 上交换到 CPU 上，到了需要的时候，再把它交换回来。

动态图显存优化

动态图无法提前获得全局的计算图信息。因为无法得到每个 tensor 的生命周期，所以静态显存分配不再可用

1.用计算换显存，也就是动态图版的 Sublinear 显存优化；
2.用带宽换显存，在 GPU 和 CPU 之间交换内容。
如上图所示，交换耗时比计算耗时高出很多，因此用带宽换显存不合理。
如上图所示，在前向传播中（第一行从左到右），蓝色圆圈表示模型的中间计算结果开始占用显存。一直到前向传播完成，第一行完全变为蓝色圆圈，前面计算所占用的显存都不能释放。

等到反向传播开始（第二行从右到左），随着梯度的计算与完成应用，前向传播保留在显存中的张量才可以释放。

很明显，如果要降低显存占用，就要拿前向传播保存的中间计算结果开刀，这也正是 MegEngine 动态图显存优化的主要方向。

如上为梯度检查点技术原理示意，前向传播中第三个点为检查点，它会一直保存在显存中。第四个点在完成计算后即可释放显存，在反向传播中如果需要第四个点的值，可以从第三个点重新计算出第四个点的值。

DTR

问题

大部分场景下，网络训练的中间特征占用了绝大部分得到显存，模型权重这是占据了极小的一部分。

这些中间特征在反向传播的算子中还需要用到，所以不好被释放。

解决办法

引入LRU cache的机制，选择代价最低的tensor进行释放，在需要用到的时候进行重计算。

重计算的开销越小越好

释放的tensor占用显存越大越好

该tensor的访问间隔越长越好

LRU cache：距离上次访问时间间隔最长的，进行释放

另外，DTR 论文中还提出，除了重计算带来的开销之外，其他的额外开销主要用于寻找应该被释放掉的最优 tensor。因为在显存中，tensor 停留的时长是不断在变化的，所以只能在需要释放的时候现场计算最优的 tensor。

对此，论文中提出了两个运行时的优化技巧：

不考虑小的 tensor，当 tensor 大小小于候选集中的 tensor 的平均大小的 1% 时，不加入候选集；

每次在需要释放 tensor 的时候，随机采样 sqrt(N) 个 tensor 进行遍历（N 为目前可释放的 tensor 候选集的大小）

重计算的局限性

释放的显存不连续，形成的显存碎片，无法容纳新的tensor

例如，新的tensor需要100M的显存，为此释放了两个tensor，但是这两个tensor不是连续的，不能被使用，根据释放机制，就会一直释放下去，直到释放出一段连续可用的显存

在显存池里的排列并非最优，是按照计算顺序排列的

in-place op 失效

重计算实质上把in-place op变成了非in-place op

in-place op：模型权重会被修改利用，以此来节省显存和cache，原地修改会造成后续的值改变。

DTR：模型权重不可被修改，额外申请资源进行计算，生成新的tensor，分散在显存池中，很难形成连续大显存。

Coop

对显存的排列方式进行优化，一次性找出可以生成足够大的连续空闲显存、并且总代价最低的tensor集合。

recomputable in place

对于不再变化的tensor，进行共享存储。

op-guided allocation

根据op进行显存池中位置的分配，相同的放在一起。（原先是按照计算顺序来的）

Layout-aware Eviction

将显存池中空闲显存当做代价为0的tensor。

利用滑动窗口找出代价最小的连续tensor，进行释放。

实验效果

消耗的时间

下图是Coop和同样在OneFlow中实现的DTR、DTE策略在八种不同的网络、不同显存阈值下的对比，可以看到Coop均超过了其它两种方法:

横轴为显存，纵轴为时间倍数

显存碎片率

同时，Coop 将显存碎片率减少了一个量级（注意 BiLSTM 的 y 轴为对数坐标）

在大部分网络中，显存碎片率最低

搜索时间

Coop 的搜索过程时间复杂度为 O(N) 而不是 O(N^2)（N 为显存池中的 tensor 个数），在

绝大多数场景下也取得了最快的搜索速度（注意 BiLSTM 和 BERT Large 的 y 轴为对数坐

标）

文章标签：

异构计算

并行计算

存储

zxvf_lnn

目录

相关文章

Deephub

|

5月前

|

存储机器学习/深度学习 PyTorch

深入理解GPU内存分配：机器学习工程师的实用指南与实验

给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?

Deephub

59 0 0

楠竹11

|

6月前

|

机器学习/深度学习自然语言处理算法

ICML 2024：零阶优化器微调大模型，大幅降低内存

【7月更文挑战第14天】ICML 2024研究表明，零阶优化用于大模型微调能大幅降低内存需求。该论文通过避免反向传播，减少LLM（大型语言模型）微调的内存开销，提出新方法，适用于资源受限环境。虽然性能可能不及一阶优化器，但为高效NLP计算开辟了新途径。论文链接：[arxiv.org/abs/2402.11592](https://arxiv.org/abs/2402.11592)**

楠竹11

123 3 3

Deephub

|

8月前

|

机器学习/深度学习人工智能自然语言处理

2024年5月大语言模型论文推荐：模型优化、缩放到推理、基准测试和增强性能

本文汇总了2024年5月发布的七篇重要大语言模型论文，涉及模型优化、缩放、推理及性能增强。

Deephub

591 2 2

ModelScope运营小助手

|

8月前

|

机器学习/深度学习算法物联网

LISA微调技术解析：比LoRA更低的显存更快的速度

LISA是Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning的简写，由UIUC联合LMFlow团队于近期提出的一项LLM微调技术，可实现把全参训练的显存使用降低到之前的三分之一左右，而使用的技术方法却是非常简单。

ModelScope运营小助手

568 10 10

汀丶人工智能

|

自然语言处理 PyTorch 算法框架/工具

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度，减少内存占用

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度，减少内存占用

汀丶人工智能

149 0 2

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度，减少内存占用

董董灿是个攻城狮

|

机器学习/深度学习存储人工智能

神经网络推理加速入门—— GPU为什么这么牛

大家好啊，我是董董灿。 GPU为什么能在各种行业大放异彩，这篇文章讲述了GPU 的技术和引用。

董董灿是个攻城狮

403 1 1

神经网络推理加速入门—— GPU为什么这么牛

-开发达人-

|

机器学习/深度学习自然语言处理并行计算

大幅优化推理过程，字节高性能Transformer推理库获IPDPS 2023最佳论文奖

大幅优化推理过程，字节高性能Transformer推理库获IPDPS 2023最佳论文奖

-开发达人-

141 0 0

-开发达人-

|

自然语言处理算法数据可视化

加速100倍，性能媲美SOTA，浙大提出无数据知识蒸馏新方法FastDFKD

加速100倍，性能媲美SOTA，浙大提出无数据知识蒸馏新方法FastDFKD

-开发达人-

143 0 0

-开发达人-

|

算法调度计算机视觉

斯坦福/谷歌大脑：两次蒸馏，引导扩散模型采样提速256倍！

斯坦福/谷歌大脑：两次蒸馏，引导扩散模型采样提速256倍！

-开发达人-

183 0 0

Deephub

|

机器学习/深度学习存储自然语言处理

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

Deephub

568 0 0

FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

热门文章

最新文章

DataWorks售前咨询

2020云栖大会，云效分论坛不容错过的四大亮点指引

非侵入式AOP监控之——AspectJ使用

Nancy之ModelBinding(模型绑定)

JS简单实现朴素贝叶斯分类器

根据访问属性进行差异化数据加载

漂亮彩色验证码以及数学运算表达式形式的验证码

模拟摩天轮的效果

NetMarketShare：Windows Phone仍在苦苦挣扎的边缘

创建 VXLAN - 每天5分钟玩转 OpenStack（111）

【03】完整flutter的APP打包流程-以apk设置图标-包名-签名-APP名-打包流程为例—-开发完整的社交APP-前端客户端开发+数据联调|以优雅草商业项目为例做开发-flutter开发-全流程-商业应用级实战开发-优雅草央千澈章节内容【03】

首个全球AI出口管制规则出台，中国AI路在何方？

java连接kerberos用户认证

用行动回应“实体清单”，智谱发布了一系列新模型

Copilot测评报告——2025如果你需要做运维，强烈推荐你使用Copilot

ElasticSearch 详解

产品测评 | 感受操作系统智能助手OS Copilot新功能带来的运维效率飞升

HTML5 SVG实现可爱的小鸟卡通动画3D特效

html实现的文字发散动画效果代码

基于HTML5+Canvas绘制的鼠标跟随三角形碎片光标动画代码

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

机器学习基础与回归算法

创空间应用训练个性化模型

相关电子书

更多

端到端GPU性能优化在深度学习场景下的应用实践

端到端GPU性能在深度学学习场景下的应用实践

大规模稀疏化模型技术介绍及实践

相关实验场景

更多

通过GPU云服务器训练GPT-2

通过GPU云服务器进行LLaMA-7b指令微调

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

基于函数计算实现AI推理

下一篇

DataWorks智能交互式数据开发与分析之旅