开发者社区> 问答> 正文

训练gpt3 1.3b 模型的时候 ,迭代到100次,loss 为nan

训练环境 pytorch 1.7.1+cuda11.0+modelscope1.3.1 batchsize 修改为了 2

训练脚本用的官方开源的训练问题生成的脚本: https://modelscope.cn/models/damo/nlp_gpt3_text-generation_1.3B/summary

1676873016854.jpg

展开
收起
江义123 2023-02-20 14:24:53 466 0
1 条回答
写回答
取消 提交回答
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    看截图,数据应该没问题,大概率是学习率设置过高,可能会导致权重值变得非常大

    2023-02-21 15:58:52
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载

相关实验场景

更多