训练框架似乎不支持多卡训练,多卡跑GPT-3中文2.7B训练会报错

GPT-3中文2.7B单卡跑训练CUDA显存会炸。因此需要多卡跑,但是切换到多卡后,似乎需要手动拆分模型,否则会报错。

以两张卡为例,直接跑命令“torchrun --nproc_per_node 2 finetune_dureader.py”会报“找不到mp_rank_01_model_states.pt”。

展开
收起
游客qofbdcxycebbe 2023-02-14 14:47:18 1118 分享 版权
2 条回答
写回答
取消 提交回答
  • 我也有zh这个问题,交流一下15821444815

    2023-03-08 10:01:44
    赞同 展开评论
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    训练框架似乎是支持多卡训练的,最好能拆分,但是拆分的话能做到自动化其实也很方便了。

    2023-02-16 10:11:25
    赞同 1 展开评论