云速搭CADT - AI加速场景架构部署

简介: 云速搭(Cloud Architect Design Tool,CADT)是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模板,同时也支持自助拖拽方式定义应用云上架构,支持大量阿里云服务的配置和管理,您可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

分享人:阿瑟,阿里云产品解决架构师

 

正文:本文将从以下两方面来介绍AI加速场景架构部署:

Ÿ AI加速场景架构部署

Ÿ 实操演示

 

一、 AI加速场景架构部署


本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中,经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务,并且基于CADT快速部署进行PUC,模板验证后可以直接转生产,大大提升了工作效率。推荐如下方案:

Ÿ 常见的业务场景,比如训练场景中会有常用的数据和代码,建议直接上传到阿里云的OSS,然后在ESS上通过OSS下载使用。这里需要注意的是,OSS的bucket名称是全局唯一的。模板创建时可以进行修改,如果需要提供外网访问能力,可以在前面提供epi。

Ÿ 统一的运维入口和权限可控,包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景,我们会结合阿里云的弹性伸缩,对于算例资源进行伸缩扩容。对于相应的操作审计,我们会通过阿里云的操作审计来记录、监控阿里云账号的活动,包括阿里云控制台,OPPI对于云上产品和服务的访问、使用行为,而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。

 

二、 实操演示


首先通过阿里云官方,访问CADT控制台,打开架构模板。

 

image.png

今天的AI加速场景部署主要发生在GPU机器里,主要有几个特点:如果客户有多卡的需求,通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算,灵活弹性和强化性能。同时采用了nvidia计算塔,实现了两两互联,同时还支持esd云盘,icd云盘。实现了网络性能和计算规格的对应。

 

适用的场景包括深度学习场景,比如:无人驾驶、图像分类、语音识别等人工智能算法和训练场景,还有一些高GPU的科学计算场景,比如:流体计算学、计算金融、分子动力、环境分析等场景。

 

通过eip进行外网访问;通过堡垒机对于安全、可控、权限、运维、事件追溯的访问;通过云监控统一监控机器的健康程度和设置告警等;通过操作审计对云账号的系列活动进行审计,满足合规要求。

 

如果需要在该场景下自动安装GPU驱动,训练加速和推理加速的需求,如何通过自定义配置文件进行一键部署呢?在ecs配置里可以看到“实例自定义数据”,这里的参数可以基于实际业务场景进行调整和配置,包括AIACC-TRAINING,AIACC-INFERENCE,JAVA版本,CUDA版本等。

 

image.png

 

点击“保存”,可以快速的进行部署。部署好后,点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。

image.png

 

接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里,可以看到外网访问已经做了相应的绑定。

image.png

我们远程连接一下,点击“远程连接”,通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。

image.png

从下图中可以看到AIACC-Training(训练加速)和AIACC-Inference(推理加速)已经安装好了。

image.png

然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。

image.png

从上图我们可以看到CUDA的环境,还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止,基础环境基于依赖的资源就通过CADT快速实现了部署。

 

如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求,可以在下图右侧的“实例自定义数据”里做相应的修改,然后保存发布即可。

image.png

 

架构完成之后,客户可以根据实际的业务进行代码适配,进行相应的PUC验证。

如果完成模板验证后不需要步入生产,可以选择快速释放,需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产,比如升级eip的带宽,降ecs升级为包年包月的实例等等。

相关文章
|
2月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
514 125
|
10天前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
230 6
|
1月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
492 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
2月前
|
人工智能 Ubuntu 前端开发
Dify部署全栈指南:AI从Ubuntu配置到HTTPS自动化的10倍秘籍
本文档介绍如何部署Dify后端服务及前端界面,涵盖系统环境要求、依赖安装、代码拉取、环境变量配置、服务启动、数据库管理及常见问题解决方案,适用于开发与生产环境部署。
517 1
|
人工智能 自然语言处理 安全
AI战略丨新一代 AI 应用: 穿透场景,释放价值
在深入理解技术特性、准确把握应用场景、科学评估实施条件的基础上,企业才能制定出符合自身实际的战略。
AI战略丨新一代 AI 应用: 穿透场景,释放价值
|
24天前
|
传感器 人工智能 机器人
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI

热门文章

最新文章