备案控制台

开发者社区阿里云最佳实践文章正文

云速搭CADT - AI加速场景架构部署

2022-01-19 489

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 云速搭（Cloud Architect Design Tool，CADT）是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模板，同时也支持自助拖拽方式定义应用云上架构，支持大量阿里云服务的配置和管理，您可以方便地对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

分享人：阿瑟，阿里云产品解决架构师

正文：本文将从以下两方面来介绍AI加速场景架构部署：

Ÿ AI加速场景架构部署

Ÿ 实操演示

一、 AI加速场景架构部署

本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中，经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务，并且基于CADT快速部署进行PUC，模板验证后可以直接转生产，大大提升了工作效率。推荐如下方案：

Ÿ 常见的业务场景，比如训练场景中会有常用的数据和代码，建议直接上传到阿里云的OSS，然后在ESS上通过OSS下载使用。这里需要注意的是，OSS的bucket名称是全局唯一的。模板创建时可以进行修改，如果需要提供外网访问能力，可以在前面提供epi。

Ÿ 统一的运维入口和权限可控，包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景，我们会结合阿里云的弹性伸缩，对于算例资源进行伸缩扩容。对于相应的操作审计，我们会通过阿里云的操作审计来记录、监控阿里云账号的活动，包括阿里云控制台，OPPI对于云上产品和服务的访问、使用行为，而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。

二、实操演示

首先通过阿里云官方，访问CADT控制台，打开架构模板。

今天的AI加速场景部署主要发生在GPU机器里，主要有几个特点：如果客户有多卡的需求，通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算，灵活弹性和强化性能。同时采用了nvidia计算塔，实现了两两互联，同时还支持esd云盘，icd云盘。实现了网络性能和计算规格的对应。

适用的场景包括深度学习场景，比如：无人驾驶、图像分类、语音识别等人工智能算法和训练场景，还有一些高GPU的科学计算场景，比如：流体计算学、计算金融、分子动力、环境分析等场景。

通过eip进行外网访问；通过堡垒机对于安全、可控、权限、运维、事件追溯的访问；通过云监控统一监控机器的健康程度和设置告警等；通过操作审计对云账号的系列活动进行审计，满足合规要求。

如果需要在该场景下自动安装GPU驱动，训练加速和推理加速的需求，如何通过自定义配置文件进行一键部署呢？在ecs配置里可以看到“实例自定义数据”，这里的参数可以基于实际业务场景进行调整和配置，包括AIACC-TRAINING，AIACC-INFERENCE，JAVA版本，CUDA版本等。

点击“保存”，可以快速的进行部署。部署好后，点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。

接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里，可以看到外网访问已经做了相应的绑定。

我们远程连接一下，点击“远程连接”，通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。

从下图中可以看到AIACC-Training（训练加速）和AIACC-Inference（推理加速）已经安装好了。

然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。

从上图我们可以看到CUDA的环境，还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止，基础环境基于依赖的资源就通过CADT快速实现了部署。

如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求，可以在下图右侧的“实例自定义数据”里做相应的修改，然后保存发布即可。

架构完成之后，客户可以根据实际的业务进行代码适配，进行相应的PUC验证。

如果完成模板验证后不需要步入生产，可以选择快速释放，需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产，比如升级eip的带宽，降ecs升级为包年包月的实例等等。

文章标签：

云速搭

GPU云服务器

机器学习/深度学习

人工智能

异构计算

并行计算

弹性计算

监控

运维

对象存储

安全

架构师

关键词：

AI场景

架构ai

架构场景

AI架构

AI部署

技术小达人

目录

相关文章

喜欢猪猪

|

26天前

|

人工智能 Java Serverless

阿里云函数计算助力AI大模型快速部署

随着人工智能技术的快速发展，AI大模型已经成为企业数字化转型的重要工具。然而，对于许多业务人员、开发者以及企业来说，探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能，难以快速上手AI模型；开发者可能受限于GPU资源，无法高效构建和部署AI应用；企业则希望简化技术门槛，以更低的成本和更高的效率利用AI大模型。

喜欢猪猪

111 12 12

游客jq5b4w62vc5k6

|

24天前

|

机器学习/深度学习人工智能自然语言处理

转载：【AI系统】AI的领域、场景与行业应用

本文概述了AI的历史、现状及发展趋势，探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用，以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步，AI模型正从单一走向多样化，从小规模到大规模分布式训练，企业级AI系统设计面临更多挑战，同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性，并鼓励读者深入了解AI系统的设计原则与研究方法，共同推动AI技术的发展。

游客jq5b4w62vc5k6

131 16 16

转载：【AI系统】AI的领域、场景与行业应用

蚝油菜花

|

16天前

|

机器学习/深度学习人工智能算法

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具，支持图像和视频的多样化标注样式，适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。

蚝油菜花

82 2 2

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

人物我非-32022

|

12天前

|

人工智能数据库连接 API

在部署《主动式智能导购 AI 助手构建》解决方案的过程中，整体体验还是相对顺畅的，但确实遇到了一些问题，文档提供的引导也有所不足，以下是详细的体验评估

在部署《主动式智能导购 AI 助手构建》解决方案的过程中，整体体验还是相对顺畅的，但确实遇到了一些问题，文档提供的引导也有所不足，以下是详细的体验评估

人物我非-32022

50 20 21

技术内容小助手

|

1天前

|

人工智能运维监控

云卓越架构：企业稳定性架构体系和AI业务场景探秘

本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲，主题为“云卓越架构：企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分：1) 稳定性架构设计，强调高可用、可扩展性、安全性和可维护性；2) 稳定性保障体系和应急体系的建立，确保快速响应和恢复；3) 重大活动时的稳定重宝策略，如大促或新业务上线；4) AI在企业中的应用场景，包括智能编码、知识库问答、创意广告生成等。通过这些内容，帮助企业在云计算环境中构建更加稳定和高效的架构，并探索AI技术带来的创新机会。

技术内容小助手

22 6 6

技术内容小助手

|

3天前

|

存储人工智能运维

面向AI的服务器计算软硬件架构实践和创新

阿里云在新一代通用计算服务器设计中，针对处理器核心数迅速增长（2024年超100核）、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题，推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径，优化散热支持600瓦TDP，并实现CIPU节点比例灵活配比及部件模块化可插拔设计，提升运维效率和客户响应速度。此外，还介绍了面向AI的服务器架构挑战与软硬件结合创新，包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后，探讨了大模型高效推理中的显存优化和量化压缩技术，旨在降低部署成本并提高系统效率。

技术内容小助手

29 6 6

弹性计算-百晓生

|

24天前

|

人工智能缓存异构计算

云原生AI加速生成式人工智能应用的部署构建

本文探讨了云原生技术背景下，尤其是Kubernetes和容器技术的发展，对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制，包括HPA和CronHPA，以及针对传统弹性扩展“滞后”问题提出的AHPA（高级弹性预测）。此外，文章重点介绍了Fluid项目，它通过分布式缓存优化了模型加载的I/O操作，显著缩短了推理服务的冷启动时间，特别是在处理大规模并发请求时表现出色。通过实际案例，展示了Fluid在vLLM和Qwen模型推理中的应用效果，证明了其在提高模型推理效率和响应速度方面的优势。

弹性计算-百晓生

66 5 5

云原生AI加速生成式人工智能应用的部署构建

ZOMI酱

|

28天前

|

机器学习/深度学习人工智能并行计算

【AI系统】Kernel 层架构

推理引擎的Kernel层负责执行底层数学运算，如矩阵乘法、卷积等，直接影响推理速度与效率。它与Runtime层紧密配合，通过算法优化、内存布局调整、汇编优化及调度优化等手段，实现高性能计算。Kernel层针对不同硬件（如CPU、GPU）进行特定优化，支持NEON、AVX、CUDA等技术，确保在多种平台上高效运行。

ZOMI酱

80 32 32

ZOMI酱

|

28天前

|

存储机器学习/深度学习人工智能

【AI系统】计算图优化架构

本文介绍了推理引擎转换中的图优化模块，涵盖算子融合、布局转换、算子替换及内存优化等技术，旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用，显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案，包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外，文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现，展示了如何通过图优化提高模型推理性能的具体示例。

ZOMI酱

55 4 4

ZOMI酱

|

28天前

|

机器学习/深度学习存储人工智能

【AI系统】训练后量化与部署

本文详细介绍了训练后量化技术，涵盖动态和静态量化方法，旨在将模型权重和激活从浮点数转换为整数，以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制，文章探讨了如何平衡模型精度与性能，同时提供了端侧量化推理部署的具体实现步骤和技术技巧。

ZOMI酱

44 1 1

阿里云最佳实践

热门文章

最新文章

阿里云云服务诊断工具：合作伙伴架构师的深度洞察与优化建议

微服务架构解析：跨越传统架构的技术革命

从单体到微服务：如何借助 Spring Cloud 实现架构转型

使用PaliGemma2构建多模态目标检测系统：从架构设计到性能优化的技术实践指南

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

TCP/IP协议架构：四层模型详解

《docker高级篇（大厂进阶）：4.Docker网络》包括：是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解

Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

【AI系统】推理系统架构

深入探索Spring Cloud与Spring Boot：构建微服务架构的实践经验

Fireworks AI和MongoDB：依托您的数据，借助优质模型，助力您开发高速AI应用

生成式AI入门必读：基本概念、数据挑战与解决方案

夏日主题 AI创造挑战活动来了！

[译][AI OpenAI-doc] 延迟优化

新一代数据库技术：融合AI的智能数据管理系统

AI回答总不满意？你的提问方式可能完全错误！

AI工具-标注工具labelme

[译][AI OpenAI-doc] 安全最佳实践

构建高效AI系统：深度学习优化技术解析

构建未来：AI在持续学习系统中的创新应用

相关课程

更多

Serverless 函数计算架构

架构的演进

MySQL企业常见架构与调优经验分享

企业Web常用架构LAMP-LNMP实战

企业级互联网分布式系统应用架构学习

高校精品课-上海交通大学 -企业级应用体系架构

相关电子书

更多

MaxCompute架构升级及开放性解读

MaxCompute Serverless 架构演进

阿里云消息队列的 Serverless架构演进

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用

SAE 极速部署专属 AI 证件照神器

流水线运行出错排查难？AI帮你智能排查

【玩转ComfyUI】基于函数计算一键部署AI生图平台 ComfyUI

下一篇

阿里云无影云电脑免费试用，最长可试用3个月