开发者社区> 问答> 正文

175B模型在训练时大概需要多少显存?

175B模型在训练时大概需要多少显存?

展开
收起
夹心789 2024-07-04 12:02:44 133 0
4 条回答
写回答
取消 提交回答
  • 在训练175B(即1750亿参数)的模型时,显存需求是相当高的。以下是对显存需求的一个大致估算:

    模型参数显存占用:
    175B参数模型,如果每个参数使用32位(4字节)浮点数表示,那么模型参数将占用大约700GB的显存(175B参数 * 4字节/参数 = 700GB)。
    训练过程中的显存占用:
    训练过程中,除了模型参数外,还需要考虑中间激活、梯度、优化器状态等额外显存开销。这些开销通常会导致总体显存需求增加数倍。例如,一些估算表明,训练过程中显存占用可能会增加到模型参数显存占用的7~8倍,即达到5600GB左右。
    实际硬件需求:
    由于单块显卡的显存有限,因此需要使用多块显卡进行分布式训练。例如,如果使用NPU 64G显存的卡,可能需要多达87张卡才能放下整个模型及其训练过程中的额外显存需求。

    2024-07-11 14:48:17
    赞同 展开评论 打赏
  • 大概需要2800GB的显存。

    image.png

    参考文档https://developer.volcengine.com/articles/7387286918280511507

    2024-07-06 09:35:41
    赞同 1 展开评论 打赏
  • 大模型训练通常需要大量的显存资源,175B参数量的模型可能需要GPU集群和高级显卡,如A100或V100,并采用分布式训练策略来分摊显存负担。具体的显存需求会依赖于模型结构、优化器配置、批次大小等多种因素。你也可以找阿里云技术支持联系获取

    2024-07-05 10:54:00
    赞同 1 展开评论 打赏
  • 175B模型在训练时,以FP16精度计算,模型参数大概占用350G显存,模型梯度也需要350G,优化器需要的显存规模大概在2100GB,因此合并起来大概需要2800GB的显存规模。

    2024-07-04 13:43:23
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载