开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

训练框架似乎不支持多卡训练,多卡跑GPT-3中文2.7B训练会报错

GPT-3中文2.7B单卡跑训练CUDA显存会炸。因此需要多卡跑,但是切换到多卡后,似乎需要手动拆分模型,否则会报错。

以两张卡为例,直接跑命令“torchrun --nproc_per_node 2 finetune_dureader.py”会报“找不到mp_rank_01_model_states.pt”。

展开
收起
游客qofbdcxycebbe 2023-02-14 14:47:18 1059 0
2 条回答
写回答
取消 提交回答
  • 我也有zh这个问题,交流一下15821444815

    2023-03-08 10:01:44
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    训练框架似乎是支持多卡训练的,最好能拆分,但是拆分的话能做到自动化其实也很方便了。

    2023-02-16 10:11:25
    赞同 1 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载

相关实验场景

更多