PAI Designer实验开启GPU Quick Start

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: PAI Designer(Studio 2.0)是基于云原生架构Pipeline Service(PAIFlow)的可视化建模工具, 提供可视化的机器学习开发环境,实现低门槛开发人工智能服务。同时,系统提供丰富且成熟的机器学习算法,覆盖商品推荐、金融风控及广告预测等场景,支持基于MaxCompute、PAI-DLC、Flink等计算资源进行大规模分布式运算,可以满足您不同方向的业务需求。在PAI-Studio/Designer使用深度学习组件TensorFlow、Caffe及MXNet等框架时需要手动开启GPU,然而一些客户由于对控制台和页面的不熟悉往往不知如何开启,本文为您演示开启过程。

常见问题现象:实验执行节点组件报异常:Failed Task train:kOtherError:No available cluster has the required feature: fuxi_gpu,gpu_with_vm_cuda8.

image.png

  • 由于数据转tfrecord组件执行调优参数:是否使用GPU,默认取值100表示1张GPU卡。因此如果空间资源管理没有开启GPU,需要手动开启下GPU:数据转tfrecord

1.账户开启GPU过程简单演示

操作流程:(方式一)

  1. 主账号登录PAI控制台
  2. 在左侧导航栏,单击工作空间列表,然后在工作空间列表页面,单击目标工作空间的名称。
  3. 在工作空间详情页面,单击资源管理,即可进入资源管理编辑面板。
  4. 在工作空间资源配置面板,单击操作下编辑,进入资源配置后将GPU设置为按量付费。
  5. 单击确定
  • 主账号登录PAI控制台,工作空间列表单击目标工作空间的名称

image.png


  • 在工作空间详情页面,单击资源管理,即可进入资源管理编辑面板

image.png


  • 单击操作下编辑,进入资源配置后将GPU设置为按量付费

image.png



操作流程:(方式二)

  1. 主账号登录PAI控制台
  2. 在左侧导航栏,单击工作空间列表,然后在工作空间列表页面,单击目标工作空间的名称。
  3. 在工作空间详情页面,在左侧栏选择模型开发和训练下的可视化建模(Designer)服务。
  4. 在可视化建模面板,单击右上角前往旧版可视化建模(Studio)。
  5. 单击设置在深度学习开通下选择按量付费或者购买包年包月
  • 主账号登录PAI控制台,工作空间列表单击目标工作空间的名称

image.png


  • 左侧栏选择模型开发和训练下的可视化建模(Designer)服务

image.png


  • 在可视化建模面板,单击右上角前往旧版可视化建模(Studio)

image.png


  • 单击设置在深度学习开通下选择按量付费或者购买包年包月

image.png

  • 登录子账号再次运行实验节点

image.png


更多参考

数据转tfrecord

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 Java
机器学习PAI报错问题之跑collective gpu分布式报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
7月前
|
机器学习/深度学习 弹性计算 TensorFlow
阿里云GPU加速:大模型训练与推理的全流程指南
随着深度学习和大规模模型的普及,GPU成为训练和推理的关键加速器。本文将详细介绍如何利用阿里云GPU产品完成大模型的训练与推理。我们将使用Elastic GPU、阿里云深度学习镜像、ECS(云服务器)等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
2351 0
|
机器学习/深度学习 数据采集 数据可视化
机器学习入门----线性回归实验记录
机器学习入门----线性回归实验记录
117 0
|
机器学习/深度学习 算法 数据可视化
【Python机器学习】实验12 神经网络-感知器
【Python机器学习】实验12 神经网络-感知器
144 0
|
机器学习/深度学习 数据可视化 Python
【Python机器学习】实验11 支持向量机2
【Python机器学习】实验11 支持向量机2
154 0
|
5天前
|
API Python
PAI EAS Flask应用部署Quick Start
本文介绍了如何将Python Flask应用快速部署到阿里云PAI EAS,并通过API对外提供服务。示例代码包括`web.py`和`demo.py`两个文件,展示了基本的Flask应用和跨文件导入功能。最后,通过阿里云控制台完成服务部署和调用。
55 28
|
4月前
|
存储 机器学习/深度学习 PyTorch
深入理解GPU内存分配:机器学习工程师的实用指南与实验
给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?
53 0
|
5月前
|
机器学习/深度学习 TensorFlow API
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
Keras是一个高层神经网络API,由Python编写,并能够在TensorFlow、Theano或CNTK之上运行。Keras的设计初衷是支持快速实验,能够用最少的代码实现想法,并且能够方便地在CPU和GPU上运行。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之进入DSW后,如何把工作环境切换为GPU状态
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 人工智能 算法
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
309 1