问题1:请问一下,在机器学习PAI里我训练2个epoch之后,想continue再训练1个epoch,但下1000步就会被checkpointSaverListener叫停训练是因为什么? 这是我的训练配置。没有设置num_step, 设置了num_epochs。 问题2:每次continue训练都需要删除ESTIMATOR_TRAIN_DONE这个文件吗?
有可能是由于阿里云机器学习PAI的资源限制导致的。阿里云PAI的资源分配是根据您的账户等级和您当前选择的实例类型来分配的,如果您的资源不足,就可能会被叫停,无法完成训练任务。此外,可能还有其他因素,比如您训练的数据量过大,导致训练过程会耗费很长时间,这也可能会导致被叫停。建议您优化训练数据和模型,精简训练过程,以充分利用PAI的资源,并获得更好的训练效果。
针对问题1的回答:把目录下面的ESTIMATOR_TRAIN_DONE文件删掉,再继续 针对问题2的回答:嗯嗯 此回答整理自钉群:“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。