PAI Designer实验开启GPU Quick Start

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: PAI Designer(Studio 2.0)是基于云原生架构Pipeline Service(PAIFlow)的可视化建模工具, 提供可视化的机器学习开发环境,实现低门槛开发人工智能服务。同时,系统提供丰富且成熟的机器学习算法,覆盖商品推荐、金融风控及广告预测等场景,支持基于MaxCompute、PAI-DLC、Flink等计算资源进行大规模分布式运算,可以满足您不同方向的业务需求。在PAI-Studio/Designer使用深度学习组件TensorFlow、Caffe及MXNet等框架时需要手动开启GPU,然而一些客户由于对控制台和页面的不熟悉往往不知如何开启,本文为您演示开启过程。

常见问题现象:实验执行节点组件报异常:Failed Task train:kOtherError:No available cluster has the required feature: fuxi_gpu,gpu_with_vm_cuda8.

image.png

  • 由于数据转tfrecord组件执行调优参数:是否使用GPU,默认取值100表示1张GPU卡。因此如果空间资源管理没有开启GPU,需要手动开启下GPU:数据转tfrecord

1.账户开启GPU过程简单演示

操作流程:(方式一)

  1. 主账号登录PAI控制台
  2. 在左侧导航栏,单击工作空间列表,然后在工作空间列表页面,单击目标工作空间的名称。
  3. 在工作空间详情页面,单击资源管理,即可进入资源管理编辑面板。
  4. 在工作空间资源配置面板,单击操作下编辑,进入资源配置后将GPU设置为按量付费。
  5. 单击确定
  • 主账号登录PAI控制台,工作空间列表单击目标工作空间的名称

image.png


  • 在工作空间详情页面,单击资源管理,即可进入资源管理编辑面板

image.png


  • 单击操作下编辑,进入资源配置后将GPU设置为按量付费

image.png



操作流程:(方式二)

  1. 主账号登录PAI控制台
  2. 在左侧导航栏,单击工作空间列表,然后在工作空间列表页面,单击目标工作空间的名称。
  3. 在工作空间详情页面,在左侧栏选择模型开发和训练下的可视化建模(Designer)服务。
  4. 在可视化建模面板,单击右上角前往旧版可视化建模(Studio)。
  5. 单击设置在深度学习开通下选择按量付费或者购买包年包月
  • 主账号登录PAI控制台,工作空间列表单击目标工作空间的名称

image.png


  • 左侧栏选择模型开发和训练下的可视化建模(Designer)服务

image.png


  • 在可视化建模面板,单击右上角前往旧版可视化建模(Studio)

image.png


  • 单击设置在深度学习开通下选择按量付费或者购买包年包月

image.png

  • 登录子账号再次运行实验节点

image.png


更多参考

数据转tfrecord

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 Java
机器学习PAI报错问题之跑collective gpu分布式报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
5月前
|
机器学习/深度学习 弹性计算 TensorFlow
阿里云GPU加速:大模型训练与推理的全流程指南
随着深度学习和大规模模型的普及,GPU成为训练和推理的关键加速器。本文将详细介绍如何利用阿里云GPU产品完成大模型的训练与推理。我们将使用Elastic GPU、阿里云深度学习镜像、ECS(云服务器)等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
2040 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之进入DSW后,如何把工作环境切换为GPU状态
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 算法
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
246 1
|
机器学习/深度学习 人工智能 算法
机器学习PAI-Designer基础
机器学习PAI-Designer基础
262 0
|
弹性计算 API 数据库
规模化落地AIGC应用,支持多个大语言模型(LLM)切换及GPU规划化管理(PAI-EAS + ADB-PG)
随着年初的ChatGPT引爆大语言模型市场, LLM的集中爆发,大部分企业已经完成了AIGC产品的调研,并进入第二阶段, 即寻求大规模落地的AIGC产品解决方案。本文介绍了如何企业规模化大语言模型落地,支持多个模型的快速使用,包括通义千问-7b,ChatGLM-6b,Llama2-7b 和 Llama2-13b。
2142 0
|
机器学习/深度学习 并行计算 异构计算
gpu是什么和cpu的区别 模型训练
gpu是什么和cpu的区别 模型训练
722 1
|
机器学习/深度学习 异构计算
福利贴!玩机器学习的各位,送你一个免费的GPU!!!
福利贴!玩机器学习的各位,送你一个免费的GPU!!!
152 0
|
机器学习/深度学习 并行计算 算法
机器学习算法对GPU的要求分析
简单介绍做机器学习算法的厂家对GPU的要求
508 1
|
机器学习/深度学习 存储 人工智能
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DSW Quick Start使用教程(上)
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DSW Quick Start使用教程(上)
1242 1