FastGPU + Cloud Shell 极速部署人工智能计算

简介:

最终封面1226.png

作者 | 李冬萌 阿里云开放平台高级开发工程师,主要负责阿里云 Cloud Shell,致力于开发者服务,为开发者提供方便、易用、安全的云上运维管理工具

FastGPU + Cloud Shell 极速部署人工智能计算

Cloud Shell正式集成FastGPU,您可以在Cloud Shell中随时随地在线FastGPU,将您的人工智能算法计算一键构建在阿里云的 IAAS 资源上,无需关心IAAS 层相关的计算、存储、网络等繁琐的部署操作。

FastGPU

FastGPU 是⼀套构建在阿里云上的人工智能计算极速部署工具,其提供便捷的接口和自动化工具实现人工智能训练/推理计算在阿里云 IAAS 资源上的快速部署。FastGPU 提供两套组件:

  • ncluster:运行时组件,提供便捷的 API 将线下人工智能训练/推理脚本快速的部署在阿里云 IAAS 资源上进行计算。
  • ecluster:命令行组件,提供便捷的命令行工具用于管理阿里云上人工智能计算的运行状态和集群的生命周期。

FastGPU 作为衔接用户线下人工智能算法和线上海量阿里云 GPU 计算资源的关键⼀环,方便用户将人工智能算法计算⼀键构建在阿⾥云的 IAAS 资源上,无需关心 IAAS 层相关的计算、存储、网络等繁琐的部署操作,做到简单适配、⼀键部署,随处运行的效果。为用户提供了省时、经济、便捷的基于阿里云 IAAS 资源的人工智能即刻构建方案。

1.png

FastGPU 三大亮点

亮点一:省时,资源创建时间缩短至 5 分
通过 FastGPU 您无需关心 VM 的镜像适配、多机训练的网络互通、文件/云盘存储资源挂载等问题,FastGPU 帮您自动完成,同时提供了方便的登录和状态管理。IAAS 集群资源创建时间缩短至 5 分钟内。

亮点二:省钱,GPU 资源的生命周期与训练任务无缝同步
当您的训练/推理业务触发或者数据集准备完后时才会购买 GPU 实例资源,最后当您的训练/推理任务结束后,会自动释放/停止 GPU 实例资源。同时利用飞天 AI 加速器大幅提升分布式训练速度,帮助您大幅节省资源花销。

亮点三:易用,所有资源均为 IaaS 层,可访问,可调试
简易的脚本适配,一次适配随时随处运行,同时基于 VM 的可视化管理,保证您的实验可回溯。

Cloud Shell

云命令行(Cloud Shell) 是网页版命令行工具。您可以在任意浏览器上运行云命令行管理阿里云资源。在云命令行启动时会自动为您分配一台 Linux 管理机,供您免费使用。在该虚拟机上会预装 CLI、Terraform 等多种云管理工具和 SSH、Vim、Jq 等系统工具,配合 Cloud Shell 提供的 Web IDE,辅助您完成日常的云资源管理。您可以通过教程学习使用Cloud Shell进一步认识 Cloud Shell。

Cloud Shell 五大亮点

亮点一:免费虚拟机并授权
当 Cloud Shell 运行时,会自动为您创建一台 Linux 虚拟机,您免费独享使用。当会话处于活跃状态时,实例长期有效。Cloud Shell 实现了自动授权,您无需额外操作即可使用命令行管理云资源,方便您快速使用云命令行。每个登录帐号所拥有管理权限等同于其在 RAM 中被授予的操作权限。同时,Cloud Shell 会对所有登录用户进行安全认证,并实现虚拟机按用户隔离,保证了运行环境的安全。

亮点二:永久性磁盘存储空间
Cloud Shell 可以绑定存储空间,为您提供永久存储,作为您在 Cloud Shell 实例上的 $HOME 目录。您存储在主目录中的所有文件(包括脚本以及 .bashrc 和 .vimrc 等用户配置文件)在不同会话、实例之间保持不变。

亮点三:代码编辑器
Cloud Shell 内置代码编辑器。通过 Cloud Shell 内置的 Web IDE,您不需要关心开发环境的配置以及各种依赖工具的安装,可以直接在线开发,并通过命令行执行或者部署。同时通过 Cloud Shell 绑定存储空间,您编辑的文件可以进行永久存储。

2.png

亮点四:教程模式
Cloud Shell 支持构建和启动教程,这些教程可帮助其他用户快速而有效地熟悉您的项目。
教程是一套用 Markdown 编写的说明。Cloud Shell 可以将 Markdown 文件中的文本解析为步骤和子步骤,从而创建出上下文教程。更多详细内容,您可以参考编写 Cloud Shell 教程。

亮点五:内置众多管理工具
Cloud Shell 内置了阿里云 CLI、Terraform、FastGPU、Ansible 等众多工具,方便您随时随地直接使用,免去了安装配置的繁琐步骤。

在线体验

12 月 18 日晚,在英伟达GTC技术大会的开发者之夜上,阿里云潘岳同学在现场给开发者们介绍,他是怎么花几块钱、花了不到一小时,在阿里云上实现一个能识别剪刀石头布手势的 AI 小程序的。您可以在线进行体验。其中通过 FastGPU + Cloud Shell 完成了训练模型的极速部署。

3.png

同时您还可以通过一键部署并训练手势识别应用来体验手势识别的实践场景,体验使用 FastGPU 从资源部署到拿到训练结果的端到端通路。

阿里云开放平台开发者挑战赛第二期已全面启动,足不出户就能手把手教你用GPU云服务器玩转AI,本次挑战赛由 阿里云开放平台&阿里云异构计算&阿里云视觉智能开放平台&NVIDIA 联合举办,欢迎有想法有能力的你报名参赛~
欢迎戳大赛的活动页详情并报名:
https://www.aliyun.com/daily-act/openplatform-developer-competition

相关文章
|
3月前
|
人工智能 并行计算 PyTorch
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
以Lama Cleaner的AI去水印工具理解人工智能中经常会用到GPU来计算的CUDA是什么? 优雅草-卓伊凡
329 4
|
11月前
|
人工智能 自然语言处理 物联网
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与情感计算:AI如何理解人类情感
人工智能与情感计算:AI如何理解人类情感
2387 20
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
831 22
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
11月前
|
人工智能 自然语言处理 BI
基于阿里云人工智能平台的智能客服系统开发与部署
随着人工智能技术的发展,智能客服系统成为企业提升服务效率和用户体验的重要工具。阿里云提供包括自然语言处理(NLP)、语音识别(ASR)、机器学习(PAI)等在内的完整AI平台,助力企业快速构建智能客服系统。本文将通过电商平台案例,展示如何基于阿里云AI平台从零开始开发、部署智能客服系统,并介绍其核心优势与最佳实践,涵盖文本和语音客服、知识库管理及数据分析等功能,显著提升客户服务效率和用户满意度。
|
机器学习/深度学习 人工智能 自然语言处理
探索AIGC的底层技术:人工智能通用计算架构
探索AIGC的底层技术:人工智能通用计算架构
995 3
|
Shell 测试技术 Linux
Shell 脚本循环遍历日志文件中的值进行求和并计算平均值,最大值和最小值
Shell 脚本循环遍历日志文件中的值进行求和并计算平均值,最大值和最小值
278 3
|
机器学习/深度学习 人工智能 算法
探索操作系统的未来:量子计算与人工智能的融合
【7月更文挑战第17天】随着科技的飞速进步,传统操作系统正面临前所未有的挑战和机遇。本文将探讨操作系统在未来技术革命中的角色转变,特别是量子计算和人工智能如何推动操作系统设计的革新。文章将分析当前操作系统的限制,探讨量子计算对操作系统架构的影响,以及人工智能如何优化系统性能和用户体验。最后,我们将展望操作系统在融合这些新兴技术后的可能发展路径。
223 2
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之部署时是否可以自定义资源的区域
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。