升级1:FastGPU的即刻构建|学习笔记

简介: 快速学习升级1:FastGPU的即刻构建

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级1:FastGPU的即刻构建】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10747


升级1:FastGPU的即刻构建

内容介绍:

一、AI 环境配置、管理困难

二、FastGPU 的即刻构建

三、FastGPU 即刻构建 AI 集群

四、FastGPU 即刻构建--提交作业

五、FastGPU 即刻构建一管理作业和资源

六、FastGPU 即刻构建一支持开放平台 AI 挑战赛


一、AI 环境配置、管理困难

基于异构计算 AI 应用架构的问题是AI环境配置繁琐、管理非常困难。我们知道,配置一个人工智能的环境,往往需要GPU 的驱动、CUDA、cuDNN、cuBlas、NCCL 等不同版本的库;不同主流计算框架都有不同版本,比如 Tensorflow就有很多个版本;所以在做训练、推理的VM镜像时,会遇到很多环境配置和管理困难等问题;分布式训练过程中会遇到存储、网络配置和管理困难的问题;一个典型分布式训练的环境配置需要一天的时间。

所以异构计算AI架构升级1就是 FastGPU 的即刻构建。


二、FastGPU 的即刻构建

1.png

异构计算 AI 应用架构升级1-FastGPU 即刻构建主要是在 IaaS 资源层之上加了一层 IaaS 资源管理、任务调度层。同时底层 IaaS 资源在除了计算资源、网络资源之外,把存储资源也纳入到管理之内。


三、FastGPU 即刻构建 AI 集群

1.png

用户的部分主要是绿色的,用户在起始状态只需要在蓝色部分(阿里云的产品)比如,是做存储的,只需要把数据集放在 OSS 上面,训练代码放在开发主机上面,通过 FastGPU 一键就可以把阿里云整个人工智能环境构建出来,自动创建 laaS 资源和挂载存储,把存储资源自动挂载到计算资源基础上,就可以自动启动(分布式)训练或推理任务,在任务结束之后,自动释放 laaS 资源,如计算资源,存储资源,同时会创建交互资源,包括 Tensorflow,在 FastGPU 训练过程中,用户可以实时看到训练状态,训练 log,用户完成状态,基本上计算资源都会收回,训练结果或推理结果会存在,OSS,开发主机,CloudShell 上面。用户只关心初始状态和完成状态就可以。

主要有三大好处,第一是省时,在配置基础资源时,可以把原来1天的时间缩短到5分钟;无需关心 VM 的镜像配置、工具库的配置,GPU 驱动的配置,多机训练的网络互通的配置,文件存储、云盘存储资源的自动挂载;第二个好处是省钱,GPU 资源的生命周期与任务是同步的,只有当数据集准备完成再触发 GPU 实例资源购买,当训练/推理业务触发时才购买 GPU 实例资源,这时才开始计费,当训练/推理任务结束自动释放/停止 GPU 实例资源,这样可以做到成本的最优,同时支持可抢占实例的创建,可抢占实例的成本很低,最低可以达到按量的十分之一;第三是易用,所有资源均为laaS层,用户可以登录访问,可调试,遇到什么问题可以自己调试出来,做得实验都是可以回溯的,他不是一个黑盒子,而是laaS层实例。


四、FastGPU 即刻构建--提交作业

1.png

FastGPU 提交作业的方式主要有两种,第一种通过 eclsutercreate 创建 GPU 集群,只要在[ncluster]文件里指定需要创建集群的名字,需要创建几台机器,名牌大小是多少,镜像名是什么,instance 类型是什么,是否需要 spot 实例,指定作用区域,指定 vpc 的名字,就可以创建一个集群;

第二种方式直接定义一个 job,指定 job 名,需要多少台机器,镜像名是什么,实例名是什么,然后通过代码的方式上传代码,可以下载模型和数据,最后通过 job.tasks[0].run 把运行训练作业或分布式训练作业一键提交,FastGPU 在内部构建一个集群,来训练这个作业。


五、FastGPU 即刻构建一管理作业和资源

1.png

可以通过 eclsuterls 查看作业和资源的创建情况;通过 eclusterssh/tmuxjobname 登陆作业,实时查看运行情况;通过 eclusterstop 停止实例;通过 eclusterstart 启动实例,也可以通过 eclusterkill 释放实例。


六、FastGPU 即刻构建一支持开放平台AI挑战赛

1.png

现在已经支持开放平台的 AI 挑战赛,网址是https://www.aliyun.com/daily-act/openplatform-developer-com

petition 一个重要特点就是通过 CloudShell 和 FastGPU 在5分钟内即可完成GPU集群的创建,包括容器实例准备、存储实例创建、数据准备并启动训练任务,同时可配合 SPOTGPU 实例迅速形成低成本的生产力。

CloudShell 的网址:https://shell.aliyun.com/。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
数据可视化 搜索推荐 BI
深度解析好用项目管理工具的功能优势
在选择项目管理工具时,重点在于全面的功能和高性价比。好工具应具备资源利用图(避免过度分配或闲置资源),团队协作功能(促进沟通与进度追踪),质量管理(如问题跟踪和自定义工作流),项目规划和跟踪(甘特图支持),任务管理(任务分解和依赖关系),以及费用跟踪。Zoho Projects、Microsoft Project、Jira等工具各有价格差异,例如,对于50个用户,Microsoft Project最贵,Zoho Projects最实惠,性价比高,适合中小企业。
44 2
|
1月前
|
人工智能 自然语言处理 搜索推荐
AI原生企业级Agent构建平台具备哪些特性?一篇文章看明白
AI原生企业级Agent构建平台有哪些特性?澜码正式发布AskXBOT平台为业界揭晓答案。
332 0
|
6月前
|
人工智能 自然语言处理 API
万媒易发:以RPA自动化和AIGC为基础实现多平台分发
在当今数字化时代,信息传播的速度越来越快,多平台分发成为了内容创作者们必须面对的重要挑战之一。为了解决这一难题,我们可以借助RPA(Robotic Process Automation)自动化和AIGC(Artificial Intelligence Generated Content)技术,实现高效的多平台内容发布。本文将介绍如何利用“万媒易发”工具来简化这一过程,提高内容分发的效率。
|
缓存 安全 Linux
自建iOS构建流水线建设核心原理剖析
文章主要从iOS打包机远程构建的角度分析,整体链路脚本涉及的shell、ruby、security指令、xml以及iOS工程化相关知识,文章通过一个远程构建流程简单并重点的讲解了如何规避本地打包环境下的小的修改出包存在的大量人工操作,如何动态化配置证书、版本号等信息以及内测分发方式的避坑点。
自建iOS构建流水线建设核心原理剖析
|
Kubernetes Cloud Native JavaScript
【Quarkus技术系列】「云原生架构体系」配置参考指南相关的功能机制配置介绍分析
【Quarkus技术系列】「云原生架构体系」配置参考指南相关的功能机制配置介绍分析
371 0
【Quarkus技术系列】「云原生架构体系」配置参考指南相关的功能机制配置介绍分析
|
SQL 运维 Kubernetes
环境管理的应用场景 | 学习笔记
快速学习环境管理的应用场景
194 0
环境管理的应用场景 | 学习笔记
|
数据安全/隐私保护 芯片 开发者
[升级]DSLogic基础版手动升级为Plus版本
[升级]DSLogic基础版手动升级为Plus版本
569 0
[升级]DSLogic基础版手动升级为Plus版本
|
IDE Java 程序员
C++开发环境最佳实践
C++开发环境最佳实践
529 0
C++开发环境最佳实践
|
关系型数据库 MySQL 测试技术
混合环境应用交付实践| 学习笔记
快速学习混合环境应用交付实践。
77 0
|
云安全 存储 安全
基础安全架构优化之基于软件定义进行安全架构升级
基础安全架构优化之基于软件定义进行安全架构升级
352 0
基础安全架构优化之基于软件定义进行安全架构升级