PAI-DLC 深度学习训练平台介绍|学习笔记-阿里云开发者社区

PAI-DLC 深度学习训练平台介绍|学习笔记

2022-11-20 780 发布于河北

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 快速学习 PAI-DLC 深度学习训练平台介绍。

开发者学堂课程【PAL 平台学习路线：机器学习入门到应用：PAI-DLC 深度学习训练平台介绍】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/855/detail/14231

PAI-DLC 深度学习训练平台介绍

内容介绍：

一、集群

二、镜像

三、最佳实践

PAI-DLC 深度学习训练平台的核心能力并且演示快速提交单机学习任务的最佳时间。

一、集群

首先需要准备集群，PAI-DLC 支持公共资源组和转悠资源组工作集群。

登录 PAI-DLC 控制台进入深度学习训练模块，第一次使用需要角色授权创建公共资源组。公共资源组按照实际时长计费无需自行维护计算资源集群，只需要在创建训练任务的时候确定使用的资源类型。点击添加集群可创建专有资源组（不进行额外的计费，只需要支付底层 ACK 计算资源和相关网络组件的费用即可）。点击新建集群可跳转到 ACK 控制台创建新的集群；如果对如何创建 ACK 集群有疑问，参考文档创建 Kubernetes 专有版集群。

如果您使用的是专有资源组需要注意，需要有你的ACK集群开启公网服务。打开 ACK 集群控制台，选择集群，在集群资源模块选择 LSD 的链接点击进入。需要在实例详情里去确认网络类型为共有网络。

可以为新建的集群开启公网 Ingress 服务，也可以为已有的 ACK 集群开启公网。具体参考文档。

二、镜像

在 PAI-DLC 中创建深度学习任务时，需要配置工作节点的镜像，PAI-DLC 系统支持公共镜像的自定义镜像。在AI资产管理进入镜像管理。

三、最佳实践

PAI-DLC 快速提交单机 Pytorch 迁移学习任务。

如下图，可里查看最佳实践的详细说明，最佳实践已经配备好的训练和代码。

图片4.png

点击集群控制台进入 DLC

图片3.png

点击新建任务填写任务名称

图片2.png

镜像配置支持公共镜像和自定义镜像。

公共镜像包含社区提供的标准镜像和 PAI-DLC 提供的多种镜像。

支持不同的资源类型。PYTHON 版本以及深度学习框架。镜像的详细说明可以参考文档公共镜像列表。

图片1.png

该实践选择 PAI 平台镜像，任务类型选择 PY-TORCH。在执行命令里面需要配置下载数据和代码的地址。执行训练的命令以及检查模型。

配置执行任务的节点数量以及资源，最后点击提交。任务创建完成后点击日志查看用户日志和实践。

PAI-DLC 深度学习训练平台介绍|学习笔记

PAI-DLC 深度学习训练平台介绍

一、集群

二、镜像

三、最佳实践

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

PAI-DLC 深度学习训练平台介绍|学习笔记

PAI-DLC 深度学习训练平台介绍

一、集群

二、镜像

三、最佳实践

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景