开发者社区 问答 正文

训练gpt3 1.3b 模型的时候 ,迭代到100次,loss 为nan

训练环境 pytorch 1.7.1+cuda11.0+modelscope1.3.1 batchsize 修改为了 2

训练脚本用的官方开源的训练问题生成的脚本: https://modelscope.cn/models/damo/nlp_gpt3_text-generation_1.3B/summary

1676873016854.jpg

展开
收起
江义123 2023-02-20 14:24:53 500 分享 版权
1 条回答
写回答
取消 提交回答
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    看截图,数据应该没问题,大概率是学习率设置过高,可能会导致权重值变得非常大

    2023-02-21 15:58:52
    赞同 展开评论