开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:PAI-DLC 深度学习训练平台介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/855/detail/14231
PAI-DLC 深度学习训练平台介绍
内容介绍:
一、集群
二、镜像
三、最佳实践
PAI-DLC 深度学习训练平台的核心能力并且演示快速提交单机学习任务的最佳时间。
一、集群
首先需要准备集群,PAI-DLC 支持公共资源组和转悠资源组工作集群。
登录 PAI-DLC 控制台进入深度学习训练模块,第一次使用需要角色授权创建公共资源组。公共资源组按照实际时长计费无需自行维护计算资源集群,只需要在创建训练任务的时候确定使用的资源类型。点击添加集群可创建专有资源组(不进行额外的计费,只需要支付底层 ACK 计算资源和相关网络组件的费用即可)。点击新建集群可跳转到 ACK 控制台创建新的集群;如果对如何创建 ACK 集群有疑问,参考文档创建 Kubernetes 专有版集群。
如果您使用的是专有资源组需要注意,需要有你的ACK集群开启公网服务。打开 ACK 集群控制台,选择集群,在集群资源模块选 择 LSD 的链接点击进入。需要在实例详情里去确认网络类型为共有网络。
可以为新建的集群开启公网 Ingress 服务,也可以为已有的 ACK 集群开启公网。具体参考文档。
二、镜像
在 PAI-DLC 中创建深度学习任务时,需要配置工作节点的镜像,PAI-DLC 系统支持公共镜像的自定义镜像。在AI资产管理进入镜像管理。
三、最佳实践
PAI-DLC 快速提交单机 Pytorch 迁移学习任务。
如下图,可里查看最佳实践的详细说明,最佳实践已经配备好的训练和代码。
点击集群控制台进入 DLC
点击新建任务填写任务名称
镜像配置支持公共镜像和自定义镜像。
公共镜像包含社区提供的标准镜像和 PAI-DLC 提供的多种镜像。
支持不同的资源类型。PYTHON 版本以及深度学习框架。镜像的详细说明可以参考文档公共镜像列表。
该实践选择 PAI 平台镜像,任务类型选择 PY-TORCH。在执行命令里面需要配置下载数据和代码的地址。执行训练的命令以及检查模型。
配置执行任务的节点数量以及资源,最后点击提交。任务创建完成后点击日志查看用户日志和实践。