云速搭CADT - AI加速场景架构部署

简介: 云速搭(Cloud Architect Design Tool,CADT)是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模板,同时也支持自助拖拽方式定义应用云上架构,支持大量阿里云服务的配置和管理,您可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

分享人:阿瑟,阿里云产品解决架构师

 

正文:本文将从以下两方面来介绍AI加速场景架构部署:

Ÿ AI加速场景架构部署

Ÿ 实操演示

 

一、 AI加速场景架构部署


本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中,经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务,并且基于CADT快速部署进行PUC,模板验证后可以直接转生产,大大提升了工作效率。推荐如下方案:

Ÿ 常见的业务场景,比如训练场景中会有常用的数据和代码,建议直接上传到阿里云的OSS,然后在ESS上通过OSS下载使用。这里需要注意的是,OSS的bucket名称是全局唯一的。模板创建时可以进行修改,如果需要提供外网访问能力,可以在前面提供epi。

Ÿ 统一的运维入口和权限可控,包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景,我们会结合阿里云的弹性伸缩,对于算例资源进行伸缩扩容。对于相应的操作审计,我们会通过阿里云的操作审计来记录、监控阿里云账号的活动,包括阿里云控制台,OPPI对于云上产品和服务的访问、使用行为,而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。

 

二、 实操演示


首先通过阿里云官方,访问CADT控制台,打开架构模板。

 

image.png

今天的AI加速场景部署主要发生在GPU机器里,主要有几个特点:如果客户有多卡的需求,通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算,灵活弹性和强化性能。同时采用了nvidia计算塔,实现了两两互联,同时还支持esd云盘,icd云盘。实现了网络性能和计算规格的对应。

 

适用的场景包括深度学习场景,比如:无人驾驶、图像分类、语音识别等人工智能算法和训练场景,还有一些高GPU的科学计算场景,比如:流体计算学、计算金融、分子动力、环境分析等场景。

 

通过eip进行外网访问;通过堡垒机对于安全、可控、权限、运维、事件追溯的访问;通过云监控统一监控机器的健康程度和设置告警等;通过操作审计对云账号的系列活动进行审计,满足合规要求。

 

如果需要在该场景下自动安装GPU驱动,训练加速和推理加速的需求,如何通过自定义配置文件进行一键部署呢?在ecs配置里可以看到“实例自定义数据”,这里的参数可以基于实际业务场景进行调整和配置,包括AIACC-TRAINING,AIACC-INFERENCE,JAVA版本,CUDA版本等。

 

image.png

 

点击“保存”,可以快速的进行部署。部署好后,点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。

image.png

 

接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里,可以看到外网访问已经做了相应的绑定。

image.png

我们远程连接一下,点击“远程连接”,通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。

image.png

从下图中可以看到AIACC-Training(训练加速)和AIACC-Inference(推理加速)已经安装好了。

image.png

然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。

image.png

从上图我们可以看到CUDA的环境,还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止,基础环境基于依赖的资源就通过CADT快速实现了部署。

 

如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求,可以在下图右侧的“实例自定义数据”里做相应的修改,然后保存发布即可。

image.png

 

架构完成之后,客户可以根据实际的业务进行代码适配,进行相应的PUC验证。

如果完成模板验证后不需要步入生产,可以选择快速释放,需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产,比如升级eip的带宽,降ecs升级为包年包月的实例等等。

相关文章
|
14天前
|
人工智能 Kubernetes jenkins
容器化AI模型的持续集成与持续交付(CI/CD):自动化模型更新与部署
在前几篇文章中,我们探讨了容器化AI模型的部署、监控、弹性伸缩及安全防护。为加速模型迭代以适应新数据和业务需求,需实现容器化AI模型的持续集成与持续交付(CI/CD)。CI/CD通过自动化构建、测试和部署流程,提高模型更新速度和质量,降低部署风险,增强团队协作。使用Jenkins和Kubernetes可构建高效CI/CD流水线,自动化模型开发和部署,确保环境一致性并提升整体效率。
|
11天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
712 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
|
2天前
|
人工智能 运维 安全
AI 安全架构概述
AI 安全架构涵盖数据采集、模型训练、推理部署等阶段,确保安全性、隐私与合规。其核心组件包括数据层、模型层、推理层、应用层和运维层,针对数据安全威胁(如数据投毒)、模型窃取、对抗攻击及系统漏洞等风险,提出数据加密、对抗训练、联邦学习等防御策略,并强调开发前、开发中和部署后的最佳实践,以降低 AI 解决方案的安全风险。
31 13
|
2天前
|
人工智能 弹性计算 运维
|
9天前
|
人工智能 网络性能优化 调度
Koordinator v1.6: 支持AI/ML场景的异构资源调度能力
如何高效管理和调度这些资源成为了行业关注的核心问题。在这一背景下,Koordinator积极响应社区诉求,持续深耕异构设备调度能力,并在最新的v1.6版本中推出了一系列创新功能,帮助客户解决异构资源调度难题。
|
8天前
|
人工智能 弹性计算 自然语言处理
5分钟部署,解锁100种和AI大模型的交互可能
在AI技术飞速发展的今天,个人大模型的部署与应用面临复杂流程和高门槛。阿里云推出高效、易用的个人AI大模型部署方案,支持多模型集成、灵活扩展和定制化主页,帮助用户快速搭建专属AI主页,实现智能化新体验,真正把“AI玩出花”。
|
6天前
|
人工智能 运维 自然语言处理
2025保姆级JupyterLab 4.0安装指南|全平台部署+AI编程环境配置
JupyterLab 是下一代交互式计算开发环境,2025年发布的4.0版本新增多语言内核支持(Python/R/Julia/JavaScript一键切换)、实时协作功能、AI辅助编程(集成GPT-5代码补全与错误诊断)和可视化调试器等特性。本文详细介绍其技术定位、跨平台安装方案、安装流程、高阶功能配置、典型应用场景及故障排查指南,帮助用户高效使用JupyterLab进行开发。
|
7天前
|
人工智能 搜索推荐 安全
基于函数计算一键部署 AI 陪练,快速打造你的专属口语对练伙伴
AI 口语学习涵盖发音训练、对话交流、即时反馈、个性化场景模拟和流利度提升等。本方案以英语口语学习的场景为例,利用函数计算 FC 部署 Web 应用,结合智能媒体服务(AI 实时互动)的 AI 智能体和百炼工作流应用,实现英语口语陪练。
|
6天前
|
人工智能 弹性计算 自然语言处理
5分钟部署,解锁100种和AI大模型的交互可能
阿里云弹性计算推出了一套高效、易用的个人AI大模型部署方案,帮助用户快速搭建专属的AI主页,开启智能化新体验,真正的实把“AI玩出花”。
|
15天前
|
机器学习/深度学习 人工智能 Kubernetes
容器化AI模型部署实战:从训练到推理
在上一篇中,我们探讨了AI技术如何赋能容器化生态。本篇聚焦于AI模型的容器化部署,通过图像分类任务实例,详细介绍了从模型训练到推理服务的完整流程。使用PyTorch训练CNN模型,Docker打包镜像,并借助Kubernetes进行编排和部署,最终通过FastAPI提供推理服务。容器化技术极大提升了AI模型部署的便利性和管理效率,未来将成为主流趋势。

热门文章

最新文章