开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构:升级1:FastGPU的即刻构建】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/648/detail/10747
升级1:FastGPU的即刻构建
内容介绍:
一、AI 环境配置、管理困难
二、FastGPU 的即刻构建
三、FastGPU 即刻构建 AI 集群
四、FastGPU 即刻构建--提交作业
五、FastGPU 即刻构建一管理作业和资源
六、FastGPU 即刻构建一支持开放平台 AI 挑战赛
一、AI 环境配置、管理困难
基于异构计算 AI 应用架构的问题是AI环境配置繁琐、管理非常困难。我们知道,配置一个人工智能的环境,往往需要GPU 的驱动、CUDA、cuDNN、cuBlas、NCCL 等不同版本的库;不同主流计算框架都有不同版本,比如 Tensorflow就有很多个版本;所以在做训练、推理的VM镜像时,会遇到很多环境配置和管理困难等问题;分布式训练过程中会遇到存储、网络配置和管理困难的问题;一个典型分布式训练的环境配置需要一天的时间。
所以异构计算AI架构升级1就是 FastGPU 的即刻构建。
二、FastGPU 的即刻构建
异构计算 AI 应用架构升级1-FastGPU 即刻构建主要是在 IaaS 资源层之上加了一层 IaaS 资源管理、任务调度层。同时底层 IaaS 资源在除了计算资源、网络资源之外,把存储资源也纳入到管理之内。
三、FastGPU 即刻构建 AI 集群
用户的部分主要是绿色的,用户在起始状态只需要在蓝色部分(阿里云的产品)比如,是做存储的,只需要把数据集放在 OSS 上面,训练代码放在开发主机上面,通过 FastGPU 一键就可以把阿里云整个人工智能环境构建出来,自动创建 laaS 资源和挂载存储,把存储资源自动挂载到计算资源基础上,就可以自动启动(分布式)训练或推理任务,在任务结束之后,自动释放 laaS 资源,如计算资源,存储资源,同时会创建交互资源,包括 Tensorflow,在 FastGPU 训练过程中,用户可以实时看到训练状态,训练 log,用户完成状态,基本上计算资源都会收回,训练结果或推理结果会存在,OSS,开发主机,CloudShell 上面。用户只关心初始状态和完成状态就可以。
主要有三大好处,第一是省时,在配置基础资源时,可以把原来1天的时间缩短到5分钟;无需关心 VM 的镜像配置、工具库的配置,GPU 驱动的配置,多机训练的网络互通的配置,文件存储、云盘存储资源的自动挂载;第二个好处是省钱,GPU 资源的生命周期与任务是同步的,只有当数据集准备完成再触发 GPU 实例资源购买,当训练/推理业务触发时才购买 GPU 实例资源,这时才开始计费,当训练/推理任务结束自动释放/停止 GPU 实例资源,这样可以做到成本的最优,同时支持可抢占实例的创建,可抢占实例的成本很低,最低可以达到按量的十分之一;第三是易用,所有资源均为laaS层,用户可以登录访问,可调试,遇到什么问题可以自己调试出来,做得实验都是可以回溯的,他不是一个黑盒子,而是laaS层实例。
四、FastGPU 即刻构建--提交作业
FastGPU 提交作业的方式主要有两种,第一种通过 eclsutercreate 创建 GPU 集群,只要在[ncluster]文件里指定需要创建集群的名字,需要创建几台机器,名牌大小是多少,镜像名是什么,instance 类型是什么,是否需要 spot 实例,指定作用区域,指定 vpc 的名字,就可以创建一个集群;
第二种方式直接定义一个 job,指定 job 名,需要多少台机器,镜像名是什么,实例名是什么,然后通过代码的方式上传代码,可以下载模型和数据,最后通过 job.tasks[0].run 把运行训练作业或分布式训练作业一键提交,FastGPU 在内部构建一个集群,来训练这个作业。
五、FastGPU 即刻构建一管理作业和资源
可以通过 eclsuterls 查看作业和资源的创建情况;通过 eclusterssh/tmuxjobname 登陆作业,实时查看运行情况;通过 eclusterstop 停止实例;通过 eclusterstart 启动实例,也可以通过 eclusterkill 释放实例。
六、FastGPU 即刻构建一支持开放平台AI挑战赛
现在已经支持开放平台的 AI 挑战赛,网址是https://www.aliyun.com/daily-act/openplatform-developer-com
petition 一个重要特点就是通过 CloudShell 和 FastGPU 在5分钟内即可完成GPU集群的创建,包括容器实例准备、存储实例创建、数据准备并启动训练任务,同时可配合 SPOTGPU 实例迅速形成低成本的生产力。
CloudShell 的网址:https://shell.aliyun.com/。