开发者社区 问答 正文

有哪些成熟的分布式训练框架可以解决模型装载和并行的问题?

有哪些成熟的分布式训练框架可以解决模型装载和并行的问题?

展开
收起
夹心789 2024-07-04 12:03:38 89 分享 版权
2 条回答
写回答
取消 提交回答
  • 分布式训练框架目前已经有比较成熟的方案,比如NVIDIA的Megatron-LM框架、微软开发DeepSpeed ZeRO3的算法,都可以用来解决模型装载和并行的问题。

    image.png

    参考文档https://www.thepaper.cn/newsDetail_forward_27255608

    2024-07-06 09:30:41
    赞同 展开评论
  • 目前,有一些成熟的分布式训练框架可以解决模型装载和并行的问题,例如NVIDIA开发的Megatron-LM和微软开发的DeepSpeed Zero算法。

    2024-07-04 13:43:23
    赞同 展开评论