升级1:FastGPU的即刻构建|学习笔记

简介: 快速学习升级1:FastGPU的即刻构建

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级1:FastGPU的即刻构建】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10747


升级1:FastGPU的即刻构建

内容介绍:

一、AI 环境配置、管理困难

二、FastGPU 的即刻构建

三、FastGPU 即刻构建 AI 集群

四、FastGPU 即刻构建--提交作业

五、FastGPU 即刻构建一管理作业和资源

六、FastGPU 即刻构建一支持开放平台 AI 挑战赛


一、AI 环境配置、管理困难

基于异构计算 AI 应用架构的问题是AI环境配置繁琐、管理非常困难。我们知道,配置一个人工智能的环境,往往需要GPU 的驱动、CUDA、cuDNN、cuBlas、NCCL 等不同版本的库;不同主流计算框架都有不同版本,比如 Tensorflow就有很多个版本;所以在做训练、推理的VM镜像时,会遇到很多环境配置和管理困难等问题;分布式训练过程中会遇到存储、网络配置和管理困难的问题;一个典型分布式训练的环境配置需要一天的时间。

所以异构计算AI架构升级1就是 FastGPU 的即刻构建。


二、FastGPU 的即刻构建

1.png

异构计算 AI 应用架构升级1-FastGPU 即刻构建主要是在 IaaS 资源层之上加了一层 IaaS 资源管理、任务调度层。同时底层 IaaS 资源在除了计算资源、网络资源之外,把存储资源也纳入到管理之内。


三、FastGPU 即刻构建 AI 集群

1.png

用户的部分主要是绿色的,用户在起始状态只需要在蓝色部分(阿里云的产品)比如,是做存储的,只需要把数据集放在 OSS 上面,训练代码放在开发主机上面,通过 FastGPU 一键就可以把阿里云整个人工智能环境构建出来,自动创建 laaS 资源和挂载存储,把存储资源自动挂载到计算资源基础上,就可以自动启动(分布式)训练或推理任务,在任务结束之后,自动释放 laaS 资源,如计算资源,存储资源,同时会创建交互资源,包括 Tensorflow,在 FastGPU 训练过程中,用户可以实时看到训练状态,训练 log,用户完成状态,基本上计算资源都会收回,训练结果或推理结果会存在,OSS,开发主机,CloudShell 上面。用户只关心初始状态和完成状态就可以。

主要有三大好处,第一是省时,在配置基础资源时,可以把原来1天的时间缩短到5分钟;无需关心 VM 的镜像配置、工具库的配置,GPU 驱动的配置,多机训练的网络互通的配置,文件存储、云盘存储资源的自动挂载;第二个好处是省钱,GPU 资源的生命周期与任务是同步的,只有当数据集准备完成再触发 GPU 实例资源购买,当训练/推理业务触发时才购买 GPU 实例资源,这时才开始计费,当训练/推理任务结束自动释放/停止 GPU 实例资源,这样可以做到成本的最优,同时支持可抢占实例的创建,可抢占实例的成本很低,最低可以达到按量的十分之一;第三是易用,所有资源均为laaS层,用户可以登录访问,可调试,遇到什么问题可以自己调试出来,做得实验都是可以回溯的,他不是一个黑盒子,而是laaS层实例。


四、FastGPU 即刻构建--提交作业

1.png

FastGPU 提交作业的方式主要有两种,第一种通过 eclsutercreate 创建 GPU 集群,只要在[ncluster]文件里指定需要创建集群的名字,需要创建几台机器,名牌大小是多少,镜像名是什么,instance 类型是什么,是否需要 spot 实例,指定作用区域,指定 vpc 的名字,就可以创建一个集群;

第二种方式直接定义一个 job,指定 job 名,需要多少台机器,镜像名是什么,实例名是什么,然后通过代码的方式上传代码,可以下载模型和数据,最后通过 job.tasks[0].run 把运行训练作业或分布式训练作业一键提交,FastGPU 在内部构建一个集群,来训练这个作业。


五、FastGPU 即刻构建一管理作业和资源

1.png

可以通过 eclsuterls 查看作业和资源的创建情况;通过 eclusterssh/tmuxjobname 登陆作业,实时查看运行情况;通过 eclusterstop 停止实例;通过 eclusterstart 启动实例,也可以通过 eclusterkill 释放实例。


六、FastGPU 即刻构建一支持开放平台AI挑战赛

1.png

现在已经支持开放平台的 AI 挑战赛,网址是https://www.aliyun.com/daily-act/openplatform-developer-com

petition 一个重要特点就是通过 CloudShell 和 FastGPU 在5分钟内即可完成GPU集群的创建,包括容器实例准备、存储实例创建、数据准备并启动训练任务,同时可配合 SPOTGPU 实例迅速形成低成本的生产力。

CloudShell 的网址:https://shell.aliyun.com/。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
8月前
|
人工智能 自然语言处理 搜索推荐
AI原生企业级Agent构建平台具备哪些特性?一篇文章看明白
AI原生企业级Agent构建平台有哪些特性?澜码正式发布AskXBOT平台为业界揭晓答案。
528 0
|
4月前
|
JavaScript 测试技术 持续交付
构建高效的开发环境:工具与实践指南
在软件开发中,高效的开发环境对于提升生产力和代码质量至关重要。本文将介绍如何通过选择合适的工具和实践来打造高效环境,包括减少干扰、提高效率和提升代码质量。首先,文章将探讨选择正确的代码编辑器,如 Visual Studio Code 和 Sublime Text,并介绍如何配置编辑器以提高工作效率。接着,文章将讲解版本控制系统的使用,特别是 Git 的基本操作及 GitHub、GitLab 等远程仓库服务的选择。此外,还将讨论代码质量管理,包括代码审查和单元测试的最佳实践。最后,文章将介绍持续集成和持续部署(CI/CD)工具,以及如何利用命令行工具和协作工具来进一步提升开发效率。
|
人工智能 搜索推荐 物联网
如何用AI大模型升级升级产品
众所周知,从去年到今年,AI领域出现井喷版的火热景象,越来越多的基于AI大模型诞生的应用越来越多,功能也越来越强大。就拿传统的搜索引擎企业来讲,也不得不迅速加入到AI大模型开发的队伍中,以求提升自身搜索产品的功能升级。无论是国内还是国外,被chatGPT直接影响到的行业都在打造自己的AI大模型,为的就是跟上技术发展的脚步,使得自身产品能够保持持续的竞争力。
483 1
如何用AI大模型升级升级产品
|
SQL 运维 Kubernetes
环境管理的应用场景 | 学习笔记
快速学习环境管理的应用场景
环境管理的应用场景 | 学习笔记
|
数据安全/隐私保护 芯片 开发者
[升级]DSLogic基础版手动升级为Plus版本
[升级]DSLogic基础版手动升级为Plus版本
644 0
[升级]DSLogic基础版手动升级为Plus版本
|
Linux Go iOS开发
构建多架构镜像的最佳实践
如今,Docker 容器镜像可以支持多种架构/平台,多架构镜像的构建已经成为了必备技能。
1559 2
构建多架构镜像的最佳实践
|
运维 Kubernetes Cloud Native
KubeVela 1.3 发布:开箱即用的可视化应用交付平台,引入插件生态、权限认证、版本化等企业级新特性
得益于 KubeVela 社区上百位开发者的参与和 30 多位核心贡献者的 500 多次代码提交, KubeVela 1.3 版本正式发布。相较于三个月前发布的 v1.2 版本[1],新版本在 OAM 核心引擎(Vela Core),可视化应用交付平台 (VelaUX) 和社区插件生态这三方面都给出了大量新特性。
|
NoSQL Java 测试技术
分布式工具的一次小升级
之前在做 秒杀架构实践 时有提到对 distributed-redis-tool 的一次小升级,但是没有细说。 其实主要原因是: 秒杀时我做压测:由于集成了这个限流组件,并发又比较大,所以导致连接、断开 Redis 非常频繁。 最终导致获取不了 Redis connection 的异常。
|
Web App开发 Linux Windows
迁云工具1.5.1.3版本发布
信息摘要: 提供多项优化并修复了已知问题。适用客户: 适用于从物理机环境、其他云平台和各类私有云环境迁移服务器至阿里云的用户。版本/规格功能: 1. 优化Windows还原检查功能; 2. 增加Windows GUI界面缩小功能; 3. 修复Windows VSS 0x80042308问题; 4. 优化Linux GRUB重试逻辑; 5. 增加EULA文件; 6. 修复其他已知问题。
800 0
|
Web App开发 Windows
迁云工具1.5.1.5版本发布
信息摘要: 提供多项优化并修复了已知问题。适用客户: 适用于从物理机环境、其他云平台和各类私有云环境迁移服务器至阿里云的用户。版本/规格功能: 1. 增加中转磁盘自动扩容功能; 2. 优化Windows还原检查功能; 3. 增加显示详细传输模式--verbose; 4. 其他已知问题修复。
1037 0