云速搭CADT - AI加速场景架构部署

简介: 云速搭(Cloud Architect Design Tool,CADT)是一款为上云应用提供自助式云架构管理的产品,显著地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模板,同时也支持自助拖拽方式定义应用云上架构,支持大量阿里云服务的配置和管理,您可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

分享人:阿瑟,阿里云产品解决架构师

 

正文:本文将从以下两方面来介绍AI加速场景架构部署:

Ÿ AI加速场景架构部署

Ÿ 实操演示

 

一、 AI加速场景架构部署


本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中,经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务,并且基于CADT快速部署进行PUC,模板验证后可以直接转生产,大大提升了工作效率。推荐如下方案:

Ÿ 常见的业务场景,比如训练场景中会有常用的数据和代码,建议直接上传到阿里云的OSS,然后在ESS上通过OSS下载使用。这里需要注意的是,OSS的bucket名称是全局唯一的。模板创建时可以进行修改,如果需要提供外网访问能力,可以在前面提供epi。

Ÿ 统一的运维入口和权限可控,包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景,我们会结合阿里云的弹性伸缩,对于算例资源进行伸缩扩容。对于相应的操作审计,我们会通过阿里云的操作审计来记录、监控阿里云账号的活动,包括阿里云控制台,OPPI对于云上产品和服务的访问、使用行为,而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。

 

二、 实操演示


首先通过阿里云官方,访问CADT控制台,打开架构模板。

 

image.png

今天的AI加速场景部署主要发生在GPU机器里,主要有几个特点:如果客户有多卡的需求,通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算,灵活弹性和强化性能。同时采用了nvidia计算塔,实现了两两互联,同时还支持esd云盘,icd云盘。实现了网络性能和计算规格的对应。

 

适用的场景包括深度学习场景,比如:无人驾驶、图像分类、语音识别等人工智能算法和训练场景,还有一些高GPU的科学计算场景,比如:流体计算学、计算金融、分子动力、环境分析等场景。

 

通过eip进行外网访问;通过堡垒机对于安全、可控、权限、运维、事件追溯的访问;通过云监控统一监控机器的健康程度和设置告警等;通过操作审计对云账号的系列活动进行审计,满足合规要求。

 

如果需要在该场景下自动安装GPU驱动,训练加速和推理加速的需求,如何通过自定义配置文件进行一键部署呢?在ecs配置里可以看到“实例自定义数据”,这里的参数可以基于实际业务场景进行调整和配置,包括AIACC-TRAINING,AIACC-INFERENCE,JAVA版本,CUDA版本等。

 

image.png

 

点击“保存”,可以快速的进行部署。部署好后,点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。

image.png

 

接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里,可以看到外网访问已经做了相应的绑定。

image.png

我们远程连接一下,点击“远程连接”,通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。

image.png

从下图中可以看到AIACC-Training(训练加速)和AIACC-Inference(推理加速)已经安装好了。

image.png

然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。

image.png

从上图我们可以看到CUDA的环境,还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止,基础环境基于依赖的资源就通过CADT快速实现了部署。

 

如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求,可以在下图右侧的“实例自定义数据”里做相应的修改,然后保存发布即可。

image.png

 

架构完成之后,客户可以根据实际的业务进行代码适配,进行相应的PUC验证。

如果完成模板验证后不需要步入生产,可以选择快速释放,需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产,比如升级eip的带宽,降ecs升级为包年包月的实例等等。

相关文章
|
4天前
|
存储 移动开发 Linux
Linux系统之部署h5ai目录列表程序
【5月更文挑战第3天】Linux系统之部署h5ai目录列表程序
17 1
|
5天前
|
Kubernetes Cloud Native 持续交付
探索云原生架构的未来:如何优化资源管理和服务部署
【5月更文挑战第6天】 随着云计算的快速发展,云原生技术已成为企业数字化转型的关键驱动力。此篇文章深入探讨了云原生架构的核心组件及其在资源管理和服务部署方面的优化策略。通过分析容器化、微服务及自动化管理的实践案例,本文旨在为读者提供一套系统的方法论,以利用云原生技术实现更高效、灵活且可靠的IT基础设施。
24 2
|
7天前
|
机器学习/深度学习 人工智能 算法
【AI 场景】在自主武器中使用人工智能的伦理影响
【5月更文挑战第4天】【AI 场景】在自主武器中使用人工智能的伦理影响
【AI 场景】在自主武器中使用人工智能的伦理影响
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 场景】如何使用 AI 来改善电子商务平台中的客户体验?
【5月更文挑战第4天】【AI 场景】如何使用 AI 来改善电子商务平台中的客户体验?
|
7天前
|
机器学习/深度学习 人工智能 安全
【AI 场景】描述使用 AI 开发虚拟助手所涉及的步骤
【5月更文挑战第4天】【AI 场景】描述使用 AI 开发虚拟助手所涉及的步骤
|
7天前
|
机器学习/深度学习 人工智能 监控
【AI 场景】如何应用人工智能来增强企业网络的网络安全?
【5月更文挑战第4天】【AI 场景】如何应用人工智能来增强企业网络的网络安全?
|
7天前
|
机器学习/深度学习 数据采集 人工智能
【AI 场景】解释使用人工智能诊断医学图像中疾病的过程
【5月更文挑战第4天】【AI 场景】解释使用人工智能诊断医学图像中疾病的过程
|
7天前
|
机器学习/深度学习 人工智能 搜索推荐
【AI 场景】如何使用 AI 向客户推荐个性化产品?
【5月更文挑战第3天】【AI 场景】如何使用 AI 向客户推荐个性化产品?
【AI 场景】如何使用 AI 向客户推荐个性化产品?
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 场景】人工智能在自然语言理解方面的挑战和解决方案
【5月更文挑战第3天】【AI 场景】人工智能在自然语言理解方面的挑战和解决方案
|
7天前
|
传感器 人工智能 自动驾驶
【AI 场景】如何开发用于自动驾驶的人工智能系统?
【5月更文挑战第3天】【AI 场景】如何开发用于自动驾驶的人工智能系统?