PAI-DLC 深度学习训练平台介绍|学习笔记

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 快速学习 PAI-DLC 深度学习训练平台介绍。

开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:PAI-DLC 深度学习训练平台介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/855/detail/14231


PAI-DLC 深度学习训练平台介绍

 

内容介绍:

一、集群

二、镜像

三、最佳实践

 

PAI-DLC 深度学习训练平台的核心能力并且演示快速提交单机学习任务的最佳时间。

 

一、集群

首先需要准备集群,PAI-DLC 支持公共资源组和转悠资源组工作集群。

登录 PAI-DLC 控制台进入深度学习训练模块,第一次使用需要角色授权创建公共资源组。公共资源组按照实际时长计费无需自行维护计算资源集群,只需要在创建训练任务的时候确定使用的资源类型。点击添加集群可创建专有资源组(不进行额外的计费,只需要支付底层 ACK 计算资源和相关网络组件的费用即可)。点击新建集群可跳转到 ACK 控制台创建新的集群;如果对如何创建 ACK 集群有疑问,参考文档创建 Kubernetes 专有版集群。

如果您使用的是专有资源组需要注意,需要有你的ACK集群开启公网服务。打开 ACK 集群控制台,选择集群,在集群资源模块选 择 LSD 的链接点击进入。需要在实例详情里去确认网络类型为共有网络。

可以为新建的集群开启公网 Ingress 服务,也可以为已有的 ACK 集群开启公网。具体参考文档。

 

二、镜像

在 PAI-DLC 中创建深度学习任务时,需要配置工作节点的镜像,PAI-DLC 系统支持公共镜像的自定义镜像。在AI资产管理进入镜像管理。

 

三、最佳实践

PAI-DLC 快速提交单机 Pytorch 迁移学习任务。

如下图,可里查看最佳实践的详细说明,最佳实践已经配备好的训练和代码。

图片4.png

点击集群控制台进入 DLC

图片3.png

点击新建任务填写任务名称

图片2.png

镜像配置支持公共镜像和自定义镜像。

公共镜像包含社区提供的标准镜像和 PAI-DLC 提供的多种镜像。

支持不同的资源类型。PYTHON 版本以及深度学习框架。镜像的详细说明可以参考文档公共镜像列表。

图片1.png

该实践选择 PAI 平台镜像,任务类型选择 PY-TORCH。在执行命令里面需要配置下载数据和代码的地址。执行训练的命令以及检查模型。

配置执行任务的节点数量以及资源,最后点击提交。任务创建完成后点击日志查看用户日志和实践。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
1天前
|
机器学习/深度学习 人工智能 边缘计算
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
|
2天前
PAI-Rec推荐平台对于实时特征有三个层次
PAI-Rec推荐平台针对实时特征有三个处理层次:1) 离线模拟反推历史请求时刻的实时特征;2) FeatureStore记录增量更新的实时特征,模型特征导出样本准确性达99%;3) 通过callback回调接口记录请求时刻的特征。各层次确保了实时特征的准确性和时效性。
10 0
|
13天前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
|
5月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
2月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
90 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
2月前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
99 6
|
4月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
2月前
|
人工智能 智能设计 数据处理
|
4月前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
390 4
AutoTrain:Hugging Face 开源的无代码模型训练平台