使用机器学习平台PAI,怎么创建deepspeed的分布式训练
我搜文档只搜到可视化建模的EasyRec案例,咱们DLC有没有支持 deepspeed,有没有相关的案例呀 ?
准备数据。准备您的训练数据,并将其上传到PAI的训练数据源中。
创建模型。使用PAI的模型训练功能创建您的模型,并设置训练参数。
创建任务。使用PAI的任务创建功能创建您的任务,并设置训练参数,包括训练器类型、训练器参数、训练器数量等。
启动任务。使用PAI的任务启动功能启动您的任务,并等待任务完成。
评估模型。使用PAI的模型评估功能评估您的模型,并查看模型性能。
可以参考这个文档:https://aliyuque.antfin.com/pai/pds/nyp559r0g91g4i3t?singleDoc# 《公共云DLC提交MPIJob使用手册》,模型库转存地址:https://www.aliyun.com/activity/storage/ossmodellib,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。