GPT3-2.7B用8卡训练时意外中断,如何恢复训练

用8卡拉起来的训练,ckpt被分成很多个,如下, image.png 目前官网看到恢复训练的代码是load .pth文件。

这么多个分片的参数文件如何加载?

展开
收起
游客5rty4zy6dfpts 2023-03-13 15:04:12 847 分享 版权
1 条回答
写回答
取消 提交回答
  • 您好,与文档中load模型类似,checkpoint_path 只需填写到 os.path.join(self.tmp_dir, 'epoch_1'),或是 iter_xxx 这一级即可,不用添加 .pth 后缀,读取过程后面会自动拼接文件名

    2023-03-22 22:42:09
    赞同 展开评论

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理