开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

在机器学习PAI里我训练2个epoch后,想再训练1个epoch,就会被叫停,为什么?

问题1:474b5700ce29052a3d364417a2ee422f.png请问一下,在机器学习PAI里我训练2个epoch之后,想continue再训练1个epoch,但下1000步就会被checkpointSaverListener叫停训练是因为什么? 279dfd9d3559bb09bfed913787821576.png 这是我的训练配置。没有设置num_step, 设置了num_epochs。 问题2:每次continue训练都需要删除ESTIMATOR_TRAIN_DONE这个文件吗?

展开
收起
三分钟热度的鱼 2023-05-14 20:13:55 173 0
2 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    有可能是由于阿里云机器学习PAI的资源限制导致的。阿里云PAI的资源分配是根据您的账户等级和您当前选择的实例类型来分配的,如果您的资源不足,就可能会被叫停,无法完成训练任务。此外,可能还有其他因素,比如您训练的数据量过大,导致训练过程会耗费很长时间,这也可能会导致被叫停。建议您优化训练数据和模型,精简训练过程,以充分利用PAI的资源,并获得更好的训练效果。

    2023-05-23 12:14:31
    赞同 展开评论 打赏
  • 针对问题1的回答:把目录下面的ESTIMATOR_TRAIN_DONE文件删掉,再继续 针对问题2的回答:嗯嗯 此回答整理自钉群:“【EasyRec】推荐算法交流群”

    2023-05-14 20:42:17
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载