升级1:FastGPU的即刻构建|学习笔记

简介: 快速学习升级1:FastGPU的即刻构建

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级1:FastGPU的即刻构建】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10747


升级1:FastGPU的即刻构建

内容介绍:

一、AI 环境配置、管理困难

二、FastGPU 的即刻构建

三、FastGPU 即刻构建 AI 集群

四、FastGPU 即刻构建--提交作业

五、FastGPU 即刻构建一管理作业和资源

六、FastGPU 即刻构建一支持开放平台 AI 挑战赛


一、AI 环境配置、管理困难

基于异构计算 AI 应用架构的问题是AI环境配置繁琐、管理非常困难。我们知道,配置一个人工智能的环境,往往需要GPU 的驱动、CUDA、cuDNN、cuBlas、NCCL 等不同版本的库;不同主流计算框架都有不同版本,比如 Tensorflow就有很多个版本;所以在做训练、推理的VM镜像时,会遇到很多环境配置和管理困难等问题;分布式训练过程中会遇到存储、网络配置和管理困难的问题;一个典型分布式训练的环境配置需要一天的时间。

所以异构计算AI架构升级1就是 FastGPU 的即刻构建。


二、FastGPU 的即刻构建

1.png

异构计算 AI 应用架构升级1-FastGPU 即刻构建主要是在 IaaS 资源层之上加了一层 IaaS 资源管理、任务调度层。同时底层 IaaS 资源在除了计算资源、网络资源之外,把存储资源也纳入到管理之内。


三、FastGPU 即刻构建 AI 集群

1.png

用户的部分主要是绿色的,用户在起始状态只需要在蓝色部分(阿里云的产品)比如,是做存储的,只需要把数据集放在 OSS 上面,训练代码放在开发主机上面,通过 FastGPU 一键就可以把阿里云整个人工智能环境构建出来,自动创建 laaS 资源和挂载存储,把存储资源自动挂载到计算资源基础上,就可以自动启动(分布式)训练或推理任务,在任务结束之后,自动释放 laaS 资源,如计算资源,存储资源,同时会创建交互资源,包括 Tensorflow,在 FastGPU 训练过程中,用户可以实时看到训练状态,训练 log,用户完成状态,基本上计算资源都会收回,训练结果或推理结果会存在,OSS,开发主机,CloudShell 上面。用户只关心初始状态和完成状态就可以。

主要有三大好处,第一是省时,在配置基础资源时,可以把原来1天的时间缩短到5分钟;无需关心 VM 的镜像配置、工具库的配置,GPU 驱动的配置,多机训练的网络互通的配置,文件存储、云盘存储资源的自动挂载;第二个好处是省钱,GPU 资源的生命周期与任务是同步的,只有当数据集准备完成再触发 GPU 实例资源购买,当训练/推理业务触发时才购买 GPU 实例资源,这时才开始计费,当训练/推理任务结束自动释放/停止 GPU 实例资源,这样可以做到成本的最优,同时支持可抢占实例的创建,可抢占实例的成本很低,最低可以达到按量的十分之一;第三是易用,所有资源均为laaS层,用户可以登录访问,可调试,遇到什么问题可以自己调试出来,做得实验都是可以回溯的,他不是一个黑盒子,而是laaS层实例。


四、FastGPU 即刻构建--提交作业

1.png

FastGPU 提交作业的方式主要有两种,第一种通过 eclsutercreate 创建 GPU 集群,只要在[ncluster]文件里指定需要创建集群的名字,需要创建几台机器,名牌大小是多少,镜像名是什么,instance 类型是什么,是否需要 spot 实例,指定作用区域,指定 vpc 的名字,就可以创建一个集群;

第二种方式直接定义一个 job,指定 job 名,需要多少台机器,镜像名是什么,实例名是什么,然后通过代码的方式上传代码,可以下载模型和数据,最后通过 job.tasks[0].run 把运行训练作业或分布式训练作业一键提交,FastGPU 在内部构建一个集群,来训练这个作业。


五、FastGPU 即刻构建一管理作业和资源

1.png

可以通过 eclsuterls 查看作业和资源的创建情况;通过 eclusterssh/tmuxjobname 登陆作业,实时查看运行情况;通过 eclusterstop 停止实例;通过 eclusterstart 启动实例,也可以通过 eclusterkill 释放实例。


六、FastGPU 即刻构建一支持开放平台AI挑战赛

1.png

现在已经支持开放平台的 AI 挑战赛,网址是https://www.aliyun.com/daily-act/openplatform-developer-com

petition 一个重要特点就是通过 CloudShell 和 FastGPU 在5分钟内即可完成GPU集群的创建,包括容器实例准备、存储实例创建、数据准备并启动训练任务,同时可配合 SPOTGPU 实例迅速形成低成本的生产力。

CloudShell 的网址:https://shell.aliyun.com/。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
15天前
|
缓存 物联网 数据库
如何帮助我们改造升级原有架构——基于TDengine 平台
一、简介 TDengine 核心是一款高性能、集群开源、云原生的时序数据库(Time Series Database,TSDB),专为物联网IoT平台、工业互联网、电力、IT 运维等场景设计并优化,具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能,能大幅减少系统设计的复杂度,降低研发和运营成本,是一个高性能、分布式的物联网IoT、工业大数据平台。 二、TDengine 功能与组件 TDengine 社区版是一开源版本,采用的是 AGPL 许可证,它具备高效处理时序数据所需要的所有功能,包括: SQL 写入、无模式写入和通过第三方工具写入 S标准 SQL 查
49 13
|
2月前
|
Cloud Native 持续交付 云计算
云原生技术的未来展望:构建更加动态和灵活的IT环境
【7月更文挑战第59天】 随着数字化转型的加速,企业对信息技术基础设施的需求日益增长,尤其是对灵活性、可扩展性和敏捷性的追求。云原生技术作为一种新兴的IT架构范式,以其独特的优势正逐渐成为推动业务创新和实现快速响应市场变化的关键力量。本文将深入探讨云原生技术的发展现状,分析其核心组件如容器化、微服务、DevOps和持续集成/持续部署(CI/CD)等,并预测这些技术如何塑造未来云计算的蓝图,以及企业如何利用这些技术构建一个更加动态和灵活的IT环境。
|
5月前
|
Prometheus Cloud Native 调度
Sentinel 新版本发布,提升配置灵活性以及可观测配套
Sentinel 新版本发布,提升配置灵活性以及可观测配套
|
监控 安全 Cloud Native
云原生环境下的安全实践:保护应用程序和数据的关键策略
云原生环境下的安全实践:保护应用程序和数据的关键策略
587 0
云原生环境下的安全实践:保护应用程序和数据的关键策略
|
XML JSON JavaScript
版本升级 | v1.0.13发布,传下去:更好用了
本次更新主要聚焦兼容性的提升及结果报告格式的增加,另外对部分解析逻辑及使用体验进行了优化。特别鸣谢@Hugo-X的PR贡献~
117 0
版本升级 | v1.0.13发布,传下去:更好用了
|
Kubernetes 数据可视化 Cloud Native
【源码】低代码PaaS平台,用简单配置快速构建企业级应用程序
基于最先进的云原生技术搭建,整合了Kubernetes、微服务、Serverless、NoSQL 等最先进的技术架构,并提供了完善的自动化开发测试工具与运维管理工具。 基于moleculer 微服务架构开发,每个软件包、每个业务对象都是一个微服务,可以独立部署,独立运行。
176 0
|
SQL 运维 Kubernetes
环境管理的应用场景 | 学习笔记
快速学习环境管理的应用场景
环境管理的应用场景 | 学习笔记
|
数据安全/隐私保护 芯片 开发者
[升级]DSLogic基础版手动升级为Plus版本
[升级]DSLogic基础版手动升级为Plus版本
603 0
[升级]DSLogic基础版手动升级为Plus版本
|
IDE Java 程序员
C++开发环境最佳实践
C++开发环境最佳实践
560 0
C++开发环境最佳实践
|
云安全 存储 安全
基础安全架构优化之基于软件定义进行安全架构升级
基础安全架构优化之基于软件定义进行安全架构升级
407 0
基础安全架构优化之基于软件定义进行安全架构升级