文档备案控制台

开发者社区问答正文

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

展开

收起

岩茶芋泥 2022-04-20 11:08:18 2058 版权

来自：阿里技术

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Dons

1、重算 Recomputation (Gradient Checkpoint)：正常的DNN前向过程中会生成activation，这部分activation会在后向过程中用于梯度计算。因此，在梯度生成之前，前向的activation会一直存留在显存中。activation大小和模型结构以及batch size相关，通常占比都非常高。Gradient Checkpoint (GC) 通过保留前向传播过程中的部分activation，在反向传播中重算被释放的activation，用时间换空间。GC中比较重要的一部分是如何选择合适的checkpoint点，在节省显存、保证性能的同时，又不影响收敛性。EPL提供了自动GC功能，用户可以一键开启GC优化功能。 2、ZeRO：在数据并行的场景下，每个卡上会存放一个模型副本，optimizer state等，这些信息在每张卡上都是一样，存在很大的冗余量。当模型变大，很容易超出单卡的显存限制。在分布式场景下，可以通过类似DeepSpeed ZeRO的思路，将optimizer state和gradient分片存在不同的卡上，从而减少单卡的persistent memory占用。 3、显存优化的AMP(Auto Mixed Precision)：在常规的AMP里，需要维护一个FP16的weight buffer，对于参数量比较大的模型，也是不小的开销。EPL提供了一个显存优化的AMP版本，FP16只有在用的时候才cast，从而节约显存。 4、Offload: Offload将训练的存储空间从显存扩展到内存甚至磁盘，可以用有限的资源训练大模型。同时，EPL支持各种显存优化技术的组合使用，达到显存的极致优化。阿里云机器学习PAI团队在T5模型上开启了GC+ZeRO+显存优化的AMP技术，在性能保持不变的情况下，显存降低2.6倍。

2022-04-20 13:26:44

赞同展开评论

问答分类：

异构计算 GPU云服务器

问答标签：

GPU云服务器技术 GPU云服务器大模型 GPU云服务器显存 GPU云服务器模型 GPU云服务器训练

问答地址：

开发者社区 > 阿里技术 > 问答

相关问答

千问Qwen3 32B大模型部署需要什么配置的GPU服务器？

2201

1

0

千问Qwen3 14B大模型部署最低配置GPU服务器要求？

1874

1

0

Qwen3 32B,14B,8B大模型部署分别需要多少显存，GPU服务器如何选？

5266

1

0

在GPU服务器上使用魔搭部署deepseek70b大模型时，有一个文件出现校验之类的错误？

297

0

0

通义灵码十进制加减法都做不对，这正常吗，希望能好好优化优化

172

1

0

Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗？

504

0

0

求助，人工智能平台 PAI-DSW运行模型时，找不到 GPU

259

0

0

通义灵码生成的python代码如何进行优化才能运行顺畅，少出bog.

155

1

0

在云上部署ChatGLM2-6B大模型（GPU版）这个实验，最后无法访问网址

481

2

0

modelscope-funasr怎么设置使得模型可以用CUDA0以外的其他gpu？

34061

1

0

收录在圈子:

阿里技术

7055

+ 订阅

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

相关文章

阿里云服务器收费价格多少钱1小时？价格查询入口在哪？

阿里云服务器价格查询工具：配置报价器，鼠标选配置支持一键精准报价

阿里云Qwen-QwQ推理模型部署教程——基于函数计算FC的Function AI

写 PyTorch 总像在写脚本？试试 PyTorch Lightning，把模型训练变成“工程化项目”

GPU红绿阵营对决：CUDA与ROCm内核调度机制深度漫游指南

相关解决方案

更多

一键训练模型及部署GPU共享推理服务

零代码微调，打造领域专属大模型

触手可及，函数计算玩转 AI 大模型

文件下载加速及成本优化

告别低效沟通，使用大模型发起语音通话

还有其他疑问?