PAI-DLC 深度学习训练平台介绍|学习笔记

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 快速学习 PAI-DLC 深度学习训练平台介绍。

开发者学堂课程【PAL 平台学习路线:机器学习入门到应用:PAI-DLC 深度学习训练平台介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/855/detail/14231


PAI-DLC 深度学习训练平台介绍

 

内容介绍:

一、集群

二、镜像

三、最佳实践

 

PAI-DLC 深度学习训练平台的核心能力并且演示快速提交单机学习任务的最佳时间。

 

一、集群

首先需要准备集群,PAI-DLC 支持公共资源组和转悠资源组工作集群。

登录 PAI-DLC 控制台进入深度学习训练模块,第一次使用需要角色授权创建公共资源组。公共资源组按照实际时长计费无需自行维护计算资源集群,只需要在创建训练任务的时候确定使用的资源类型。点击添加集群可创建专有资源组(不进行额外的计费,只需要支付底层 ACK 计算资源和相关网络组件的费用即可)。点击新建集群可跳转到 ACK 控制台创建新的集群;如果对如何创建 ACK 集群有疑问,参考文档创建 Kubernetes 专有版集群。

如果您使用的是专有资源组需要注意,需要有你的ACK集群开启公网服务。打开 ACK 集群控制台,选择集群,在集群资源模块选 择 LSD 的链接点击进入。需要在实例详情里去确认网络类型为共有网络。

可以为新建的集群开启公网 Ingress 服务,也可以为已有的 ACK 集群开启公网。具体参考文档。

 

二、镜像

在 PAI-DLC 中创建深度学习任务时,需要配置工作节点的镜像,PAI-DLC 系统支持公共镜像的自定义镜像。在AI资产管理进入镜像管理。

 

三、最佳实践

PAI-DLC 快速提交单机 Pytorch 迁移学习任务。

如下图,可里查看最佳实践的详细说明,最佳实践已经配备好的训练和代码。

图片4.png

点击集群控制台进入 DLC

图片3.png

点击新建任务填写任务名称

图片2.png

镜像配置支持公共镜像和自定义镜像。

公共镜像包含社区提供的标准镜像和 PAI-DLC 提供的多种镜像。

支持不同的资源类型。PYTHON 版本以及深度学习框架。镜像的详细说明可以参考文档公共镜像列表。

图片1.png

该实践选择 PAI 平台镜像,任务类型选择 PY-TORCH。在执行命令里面需要配置下载数据和代码的地址。执行训练的命令以及检查模型。

配置执行任务的节点数量以及资源,最后点击提交。任务创建完成后点击日志查看用户日志和实践。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
机器学习/深度学习 存储 算法
深度学习500问——Chapter02:机器学习基础(4)
深度学习500问——Chapter02:机器学习基础(4)
35 0
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
1月前
|
机器学习/深度学习 算法 大数据
机器学习与深度学习介绍
机器学习与深度学习介绍
|
1月前
|
机器学习/深度学习 人工智能 算法
AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践
阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X,在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。
|
1月前
|
机器学习/深度学习 数据采集 PyTorch
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
使用PyTorch解决多分类问题:构建、训练和评估深度学习模型
|
2月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
99 0
|
2月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
56 1
|
11天前
|
机器学习/深度学习 运维 监控
TensorFlow分布式训练:加速深度学习模型训练
【4月更文挑战第17天】TensorFlow分布式训练加速深度学习模型训练,通过数据并行和模型并行利用多机器资源,减少训练时间。优化策略包括配置计算资源、优化数据划分和减少通信开销。实际应用需关注调试监控、系统稳定性和容错性,以应对分布式训练挑战。
|
1月前
|
机器学习/深度学习 人工智能 分布式计算
机器学习PAI常见问题之配了exporter_type: "final",训练完却没有如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
1月前
|
机器学习/深度学习 SQL 人工智能
机器学习PAI常见问题之训练模型报错如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。

热门文章

最新文章