云速搭CADT - AI加速场景架构部署

简介: 云速搭(Cloud Architect Design Tool,CADT)是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模板,同时也支持自助拖拽方式定义应用云上架构,支持大量阿里云服务的配置和管理,您可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

分享人:阿瑟,阿里云产品解决架构师

 

正文:本文将从以下两方面来介绍AI加速场景架构部署:

Ÿ AI加速场景架构部署

Ÿ 实操演示

 

一、 AI加速场景架构部署


本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中,经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务,并且基于CADT快速部署进行PUC,模板验证后可以直接转生产,大大提升了工作效率。推荐如下方案:

Ÿ 常见的业务场景,比如训练场景中会有常用的数据和代码,建议直接上传到阿里云的OSS,然后在ESS上通过OSS下载使用。这里需要注意的是,OSS的bucket名称是全局唯一的。模板创建时可以进行修改,如果需要提供外网访问能力,可以在前面提供epi。

Ÿ 统一的运维入口和权限可控,包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景,我们会结合阿里云的弹性伸缩,对于算例资源进行伸缩扩容。对于相应的操作审计,我们会通过阿里云的操作审计来记录、监控阿里云账号的活动,包括阿里云控制台,OPPI对于云上产品和服务的访问、使用行为,而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。

 

二、 实操演示


首先通过阿里云官方,访问CADT控制台,打开架构模板。

 

image.png

今天的AI加速场景部署主要发生在GPU机器里,主要有几个特点:如果客户有多卡的需求,通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算,灵活弹性和强化性能。同时采用了nvidia计算塔,实现了两两互联,同时还支持esd云盘,icd云盘。实现了网络性能和计算规格的对应。

 

适用的场景包括深度学习场景,比如:无人驾驶、图像分类、语音识别等人工智能算法和训练场景,还有一些高GPU的科学计算场景,比如:流体计算学、计算金融、分子动力、环境分析等场景。

 

通过eip进行外网访问;通过堡垒机对于安全、可控、权限、运维、事件追溯的访问;通过云监控统一监控机器的健康程度和设置告警等;通过操作审计对云账号的系列活动进行审计,满足合规要求。

 

如果需要在该场景下自动安装GPU驱动,训练加速和推理加速的需求,如何通过自定义配置文件进行一键部署呢?在ecs配置里可以看到“实例自定义数据”,这里的参数可以基于实际业务场景进行调整和配置,包括AIACC-TRAINING,AIACC-INFERENCE,JAVA版本,CUDA版本等。

 

image.png

 

点击“保存”,可以快速的进行部署。部署好后,点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。

image.png

 

接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里,可以看到外网访问已经做了相应的绑定。

image.png

我们远程连接一下,点击“远程连接”,通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。

image.png

从下图中可以看到AIACC-Training(训练加速)和AIACC-Inference(推理加速)已经安装好了。

image.png

然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。

image.png

从上图我们可以看到CUDA的环境,还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止,基础环境基于依赖的资源就通过CADT快速实现了部署。

 

如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求,可以在下图右侧的“实例自定义数据”里做相应的修改,然后保存发布即可。

image.png

 

架构完成之后,客户可以根据实际的业务进行代码适配,进行相应的PUC验证。

如果完成模板验证后不需要步入生产,可以选择快速释放,需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产,比如升级eip的带宽,降ecs升级为包年包月的实例等等。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
587 98
|
4月前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
793 23
|
4月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
350 6
|
4月前
|
传感器 人工智能 机器人
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
科技云报到:找到真场景,抓住真需求,这样的具身智能才是好AI
219 1
|
5月前
|
传感器 人工智能 监控
建筑施工安全 “智能防线”!AI 施工监测系统,全方位破解多场景隐患难题
AI施工监测系统通过多场景识别、智能联动与数据迭代,实现材料堆放、安全通道、用电、大型设备及人员行为的全场景智能监管。实时预警隐患,自动推送告警,联动现场处置,推动建筑安全从“人工巡查”迈向“主动防控”,全面提升施工安全管理水平。
978 15
|
4月前
|
存储 监控 安全
132_API部署:FastAPI与现代安全架构深度解析与LLM服务化最佳实践
在大语言模型(LLM)部署的最后一公里,API接口的设计与安全性直接决定了模型服务的可用性、稳定性与用户信任度。随着2025年LLM应用的爆炸式增长,如何构建高性能、高安全性的REST API成为开发者面临的核心挑战。FastAPI作为Python生态中最受青睐的Web框架之一,凭借其卓越的性能、强大的类型安全支持和完善的文档生成能力,已成为LLM服务化部署的首选方案。
|
5月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
679 7
|
5月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
4月前
|
存储 人工智能 搜索推荐
拔俗AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教融合大语言模型、教育知识图谱、多模态感知与智能体技术,重构“教、学、评、辅”全链路。通过微调LLM、精准诊断错因、多模态交互与自主任务规划,实现个性化教学。轻量化部署与隐私保护设计保障落地安全,未来将向情感感知与教育深度协同演进。(238字)
463 0
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)
616 0