文档备案控制台

开发者社区问答正文

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

当模型增长，GPU的显存常常成为训练大模型的瓶颈。EPL提供了多维度的显存优化技术，具体有哪些呢？

展开

收起

岩茶芋泥 2022-04-20 11:08:18 2123 版权

来自：阿里技术

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Dons

1、重算 Recomputation (Gradient Checkpoint)：正常的DNN前向过程中会生成activation，这部分activation会在后向过程中用于梯度计算。因此，在梯度生成之前，前向的activation会一直存留在显存中。activation大小和模型结构以及batch size相关，通常占比都非常高。Gradient Checkpoint (GC) 通过保留前向传播过程中的部分activation，在反向传播中重算被释放的activation，用时间换空间。GC中比较重要的一部分是如何选择合适的checkpoint点，在节省显存、保证性能的同时，又不影响收敛性。EPL提供了自动GC功能，用户可以一键开启GC优化功能。 2、ZeRO：在数据并行的场景下，每个卡上会存放一个模型副本，optimizer state等，这些信息在每张卡上都是一样，存在很大的冗余量。当模型变大，很容易超出单卡的显存限制。在分布式场景下，可以通过类似DeepSpeed ZeRO的思路，将optimizer state和gradient分片存在不同的卡上，从而减少单卡的persistent memory占用。 3、显存优化的AMP(Auto Mixed Precision)：在常规的AMP里，需要维护一个FP16的weight buffer，对于参数量比较大的模型，也是不小的开销。EPL提供了一个显存优化的AMP版本，FP16只有在用的时候才cast，从而节约显存。 4、Offload: Offload将训练的存储空间从显存扩展到内存甚至磁盘，可以用有限的资源训练大模型。同时，EPL支持各种显存优化技术的组合使用，达到显存的极致优化。阿里云机器学习PAI团队在T5模型上开启了GC+ZeRO+显存优化的AMP技术，在性能保持不变的情况下，显存降低2.6倍。

2022-04-20 13:26:44

赞同展开评论

问答分类：

异构计算 GPU云服务器

问答标签：

GPU云服务器技术 GPU云服务器大模型 GPU云服务器显存 GPU云服务器模型 GPU云服务器训练

问答地址：

开发者社区 > 阿里技术 > 问答

相关问答

千问Qwen3 14B大模型部署最低配置GPU服务器要求？

2555

1

0

千问Qwen3 32B大模型部署需要什么配置的GPU服务器？

3039

1

0

Qwen3 32B,14B,8B大模型部署分别需要多少显存，GPU服务器如何选？

6688

1

0

在GPU服务器上使用魔搭部署deepseek70b大模型时，有一个文件出现校验之类的错误？

395

0

0

Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗？

676

0

0

求助，人工智能平台 PAI-DSW运行模型时，找不到 GPU

344

0

0

在云上部署ChatGLM2-6B大模型（GPU版）这个实验，最后无法访问网址

736

2

0

modelscope-funasr怎么设置使得模型可以用CUDA0以外的其他gpu？

34157

1

0

modelscope-funasr服务端部署的话，推荐什么样的GPU？

382

0

0

在modelscope-funasr如果使用GPU的话这个编译需要改什么？

756

0

0

收录在圈子:

阿里技术

7057

+ 订阅

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

AnalyticDB PostgreSQL版通过安全可靠测评了吗？

2026年阿里云618优惠活动，购买云服务器如何更划算？

这个社区版的订阅套餐是怎么回事？既没有积分，也没有免费的千问。听说别人还有什么免费的 Pro 领取

Quest无法打开远程服务器中的项目

Credits消耗问题

相关文章

阿里云服务器ECS选择指南：CPU内存、公网带宽、云盘存储配置方法，2026年最新

阿里云服务器选择指南：ECS实例规格族、CPU、存储及公网带宽选型方法，新手入门

阿里云服务器选择指南：ECS实例规格族+CPU型号+内存+公网带宽+存储IO全解析

2026年中这波AI更新潮，工程师真正该关注的是哪几条

论文解读：DeepSeek DSpark 在真实高并发推理服务中，如何保证 Token 生成又好又快？

相关解决方案

更多

一键训练模型及部署GPU共享推理服务

基于 Spark 和 PyTorch 的模型训练方案

零代码微调，打造领域专属大模型

文件下载加速及成本优化

GLM-5.2：长任务时代开源旗舰模型

还有其他疑问?