"看起来训练没拉起来,资源也别用GPU
pipleline.config去掉这个train_distribute: MultiWorkerMirroredStrategy
maxcompute上目前不支持MultiWorkerMirroredStrategy, 建议到DLC上跑,另外不需要设置ps ,此回答整理自钉群“【EasyRec】推荐算法交流群”"
根据您提供的日志链接,我无法直接查看错误信息。但是,从日志中可以看出一些可能的原因:
网络问题:请检查您的网络连接是否正常,确保您可以访问PAI的API和ODPS服务。
认证问题:请检查您的访问令牌(token)是否有效。如果无效,您需要重新获取一个新的令牌并替换原来的令牌。
资源限制:请检查您的PAI账户是否有足够的资源来运行训练任务。例如,内存、CPU等资源的限制可能会影响训练过程。
算法版本不兼容:请检查您选择的算法框架(tf1.15
或deeprec
)是否与您的模型兼容。如果不兼容,您可能需要更新算法框架或修改模型以适应新的框架。
其他错误:根据日志中的其他信息,可能存在其他错误或异常情况。您可以仔细阅读日志以获取更多详细信息,并根据具体情况进行排查和解决。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。