FastGPU + Cloud Shell 极速部署人工智能计算

简介: 作者 | 李冬萌 阿里云开放平台高级开发工程师,主要负责阿里云 Cloud Shell,致力于开发者服务,为开发者提供方便、易用、安全的云上运维管理工具FastGPU + Cloud Shell 极速部署人工智能计算Cloud Shell正式集成FastGPU,您可以在Cloud Shell中随时随地在线FastGPU,将您的人工智能算法计算一键构建在阿里云的 IAAS 资源上,无需关心IAAS 层相关的计算、存储、网络等繁琐的部署操作。

_1226

作者 | 李冬萌 阿里云开放平台高级开发工程师,主要负责阿里云 Cloud Shell,致力于开发者服务,为开发者提供方便、易用、安全的云上运维管理工具

FastGPU + Cloud Shell 极速部署人工智能计算

Cloud Shell正式集成FastGPU,您可以在Cloud Shell中随时随地在线FastGPU,将您的人工智能算法计算一键构建在阿里云的 IAAS 资源上,无需关心IAAS 层相关的计算、存储、网络等繁琐的部署操作。

FastGPU

FastGPU 是⼀套构建在阿里云上的人工智能计算极速部署工具,其提供便捷的接口和自动化工具实现人工智能训练/推理计算在阿里云 IAAS资源上的快速部署。FastGPU 提供两套组件:

  • ncluster:运行时组件,提供便捷的 API 将线下人工智能训练/推理脚本快速的部署在阿里云 IAAS 资源上进行计算。
  • ecluster:命令行组件,提供便捷的命令行工具用于管理阿里云上人工智能计算的运行状态和集群的生命周期。

FastGPU 作为衔接用户线下人工智能算法和线上海量阿里云 GPU 计算资源的关键⼀环,方便用户将人工智能算法计算⼀键构建在阿⾥云的 IAAS 资源上,无需关心 IAAS 层相关的计算、存储、网络等繁琐的部署操作,做到简单适配、⼀键部署,随处运行的效果。为用户提供了省时、经济、便捷的基于阿里云 IAAS 资源的人工智能即刻构建方案。

1

FastGPU 三大亮点

亮点一:省时,资源创建时间缩短至 5 分
通过 FastGPU 您无需关心 VM 的镜像适配、多机训练的网络互通、文件/云盘存储资源挂载等问题,FastGPU 帮您自动完成,同时提供了方便的登录和状态管理。IAAS 集群资源创建时间缩短至 5 分钟内。

亮点二:省钱,GPU 资源的生命周期与训练任务无缝同步
当您的训练/推理业务触发或者数据集准备完后时才会购买 GPU 实例资源,最后当您的训练/推理任务结束后,会自动释放/停止 GPU 实例资源。同时利用飞天 AI 加速器大幅提升分布式训练速度,帮助您大幅节省资源花销。

亮点三:易用,所有资源均为 IaaS 层,可访问,可调试
简易的脚本适配,一次适配随时随处运行,同时基于 VM 的可视化管理,保证您的实验可回溯。

Cloud Shell

云命令行(Cloud Shell) 是网页版命令行工具。您可以在任意浏览器上运行云命令行管理阿里云资源。在云命令行启动时会自动为您分配一台 Linux 管理机,供您免费使用。在该虚拟机上会预装 CLI、Terraform 等多种云管理工具和 SSH、Vim、Jq 等系统工具,配合 Cloud Shell 提供的 Web IDE,辅助您完成日常的云资源管理。您可以通过教程学习使用Cloud Shell进一步认识 Cloud Shell。

Cloud Shell 五大亮点

亮点一:免费虚拟机并授权
当 Cloud Shell 运行时,会自动为您创建一台 Linux 虚拟机,您免费独享使用。当会话处于活跃状态时,实例长期有效。Cloud Shell 实现了自动授权,您无需额外操作即可使用命令行管理云资源,方便您快速使用云命令行。每个登录帐号所拥有管理权限等同于其在 RAM 中被授予的操作权限。同时,Cloud Shell 会对所有登录用户进行安全认证,并实现虚拟机按用户隔离,保证了运行环境的安全。

亮点二:永久性磁盘存储空间
Cloud Shell 可以绑定存储空间,为您提供永久存储,作为您在 Cloud Shell 实例上的 $HOME 目录。您存储在主目录中的所有文件(包括脚本以及 .bashrc 和 .vimrc 等用户配置文件)在不同会话、实例之间保持不变。

亮点三:代码编辑器
Cloud Shell 内置代码编辑器。通过 Cloud Shell 内置的 Web IDE,您不需要关心开发环境的配置以及各种依赖工具的安装,可以直接在线开发,并通过命令行执行或者部署。同时通过 Cloud Shell 绑定存储空间,您编辑的文件可以进行永久存储。

2

亮点四:教程模式
Cloud Shell 支持构建和启动教程,这些教程可帮助其他用户快速而有效地熟悉您的项目。
教程是一套用 Markdown 编写的说明。Cloud Shell 可以将 Markdown 文件中的文本解析为步骤和子步骤,从而创建出上下文教程。更多详细内容,您可以参考编写 Cloud Shell 教程

亮点五:内置众多管理工具
Cloud Shell 内置了阿里云 CLI、Terraform、FastGPU、Ansible 等众多工具,方便您随时随地直接使用,免去了安装配置的繁琐步骤。

在线体验

12 月 18 日晚,在英伟达GTC技术大会的开发者之夜上,阿里云潘岳同学在现场给开发者们介绍,他是怎么花几块钱、花了不到一小时,在阿里云上实现一个能识别剪刀石头布手势的 AI 小程序的。您可以在线进行体验。其中通过 FastGPU + Cloud Shell 完成了训练模型的极速部署。

3

同时您还可以通过一键部署并训练手势识别应用来体验手势识别的实践场景,体验使用 FastGPU 从资源部署到拿到训练结果的端到端通路。

相关文章
|
2月前
|
存储 人工智能 算法
【AI系统】计算与调度
本文探讨了计算与调度的概念,特别是在神经网络和图像处理中的应用。通过分离算法定义和计算组织,Halide 等工具能够显著提升图像处理程序的性能,同时保持代码的简洁性和可维护性。文章详细介绍了计算与调度的基本概念、调度树的构建与约束,以及如何通过调度变换优化计算性能。此外,还讨论了自动调优方法在大规模调度空间中的应用,展示了如何通过探索和预测找到最优的调度方案。
57 0
|
2月前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
152 34
【AI系统】计算图的优化策略
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与情感计算:AI如何理解人类情感
人工智能与情感计算:AI如何理解人类情感
384 20
|
1月前
|
人工智能 运维 Serverless
云端问道8期方案教学-基于Serverless计算快速构建AI应用开发
本文介绍了基于Serverless计算快速构建AI应用开发的技术和实践。内容涵盖四个方面:1) Serverless技术价值,包括其发展趋势和优势;2) Serverless函数计算与AI的结合,探讨AIGC应用场景及企业面临的挑战;3) Serverless函数计算AIGC应用方案,提供一键部署、模型托管等功能;4) 业务初期如何低门槛使用,介绍新用户免费额度和优惠活动。通过这些内容,帮助企业和开发者更高效地利用Serverless架构进行AI应用开发。
|
2月前
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
2月前
|
机器学习/深度学习 存储 人工智能
转载:【AI系统】计算之比特位宽
本文详细介绍了深度学习中模型量化操作及其重要性,重点探讨了比特位宽的概念,包括整数和浮点数的表示方法。文章还分析了不同数据类型(如FP32、FP16、BF16、FP8等)在AI模型中的应用,特别是FP8数据类型在提升计算性能和降低内存占用方面的优势。最后,文章讨论了降低比特位宽对AI芯片性能的影响,强调了在不同应用场景中选择合适数据类型的重要性。
转载:【AI系统】计算之比特位宽
|
1月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】计算图原理
本文介绍了AI框架中使用计算图来抽象神经网络计算的必要性和优势,探讨了计算图的基本构成,包括标量、向量、矩阵、张量等数据结构及其操作,并详细解释了计算图如何帮助解决AI工程化中的挑战。此外,文章还通过PyTorch实例展示了动态计算图的特点和实现方法,包括节点(张量或函数)和边(依赖关系)的定义,以及如何通过自定义Function实现正向和反向传播逻辑。
113 7
【AI系统】计算图原理
|
2月前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
56 5
【AI系统】计算图的控制流实现
|
2月前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算图与自动微分
自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
78 6
【AI系统】计算图与自动微分

热门文章

最新文章