ACK 云原生 AI 套件概述 | 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 快速学习 ACK 云原生 AI 套件概述

开发者学堂课程【5分钟玩转阿里云容器服务ACK 云原生 AI 套件概述】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1038/detail/18136


ACK 云原生 AI 套件概述

今天将向大家介绍什么是云原生 AI 以及云原生 AI 套件的核心场景与产品能力。

得益于深度学习等算法的突破,GPO 等算力性能提升,海量生产数据的积累,AI技术成熟度持续提高,产业化落地提速。然而算力成本高、生产效率低等挑战也日益凸显。云原生定义了云计算时代最大化利用云的能力,发挥云的价值的最佳路径。云原生架构和技术越来越多的被应用到企业生产环境中,助力企业数字化升级,加速业务提效创新。因此越来越多企业在 kubernetes 集群中管理异构资源开发运行、深度学习和大数据任务部署和弹性管理AI 服务,希望将人员生丰富的生产实践经验复制到 AI 和大数据领域。

阿里云容器服务 ACK 在 2021 年正式发布云原生 AI 套件。云原生 AI 套件是 ACK 对 AI 负载在基础服务层的增强,以 kubernetes 容器服务为底座向下封装对各类异构资源的统一管理,向上提供标准 kubernetes 集群环境和 API 提供了异构资源调度优化、AI任务调度与弹性伸缩、数据编排与访问加速 AI 作业生命周期管理等核心能力。

image.png

ACK 原生 AI 套件以组件化的方式提供服务,所有组件开箱即用,可灵活组装与扩展,并通过统一的命令行工具、多种语言 SDK 直接使用或定制开发,对 AI 大数据应用全栈优化性能、效率和成本,助力企业快速定制化构建符合自己需求的 AI 平台。ACK 原生 AI 套件还可以与阿里云机器学习平台派无缝的集成起来,为用户提供非常高效灵活的云原生 AI 平台。

一方面派平台的 dsw DLC ES 等服务介入 ACK ,为用户 AI 模型开发、训练和推理带来更好的弹性和效率。另一方面可以在 kubernetes 应用中灵活的集成派平台、深度优化的算法引擎和领域最佳实践,极大优化训练与推理效果,降低 AI 落地门槛。

image.png

ACK 云原生 AI 套件聚焦在两个核心场景,一是持续优化异构资源效率,对阿里云 S 或者客户 IDC 内各种异构资源进行抽象统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。二是高效运行 AI 大数据等异构负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。

image.png

针对异构计算场景,云原生 AI 套件在 ACK 之上增加了对 GPU NPU 等异构算力、 RDMA 高性能网络等资源的支持。针对 GPO ,NPU 这类比较昂贵的资源,还提供了资源利用率优化。一是结合 ACK 弹性节点池,对 GPU 在资源节点数和运行任务实例数两层按需自动伸缩。

二是提供 GPU 共享调度,减少 GPU 卡资源空闲浪费。集成阿里云 cgpo 技术,避免共享 GPU 的多个容器之间出现资源抢占和错误影响。还提供 GPU 拓扑感知等增强调度、多维度 GPU 监控等。基于 ACK 云原生 AI 套件, AI 平台的开发运维人员可以高效率、低成本的管理异构基础设施,既能大幅提高资源利用率,又能显著降低运维复杂度。针对深度学习场景,云原生 AI 套件将 AI 生产过程的主要环节进行抽象,以命令行工具 arena 进行管理,屏蔽底层资源管理、调度分配和监控的复杂性。可支持 tensorflow PyTorch harvard 等深度学习 AI 任务 Spark Flink 等大数据任务 MPI 高性能计算作业等。

还可以结合 copy flow pipeline 或 Argo 开源云原生工作流引擎,为复杂的 AI 任务提供工作流编排服务。

对于 AI 分布式训练等场景, ACK 调度器支持多种典型批量调度策略,支持新的优先级任务队列和租户弹性资源配额控制。为避免过度的云资源消费,云原生 AI 套件还支持了弹性模型训练和弹性模型推理,针对存算分离架构带来的数据访问延迟和远程拉取数据带宽开销大的挑战。

云原生 AI 套件对计算任务使用数据的过程进行抽象,提出弹性数据集的概念,构建了数据编排与加速系统。 fluid 实现数据集管理和权限控制,承载阿里云金岛 FS 开源 align show jose FS 等缓存引擎,实现数据集的预热加速以及监控弹性等能力。

基于 ACK 原生 AI 套件,数据科学家和算法工程师可以低门槛提交 AI 任务,高效运行和弹性管理 AI 负载。目前 ACK 云原生 AI 套件正在公测阶段,适配公共云、专有云、混合云以及边缘等多环境交付,以获得互联网、在线教育、自动驾驶等行业客户的使用。

image.png

欢迎您免费开通原生 AI 套件进行体验。如果您希望第一时间获取原生 AI 套件的新功能发布和活动资讯或者有任何疑问,欢迎加入我们的钉钉交流群。对于更多全面详细的功能介绍和操作教程,我们将在后续的视频中逐步跟大家分享。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
5天前
|
Kubernetes Cloud Native Docker
云原生时代的容器化实践:Docker和Kubernetes入门
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术成为企业提升敏捷性和效率的关键。本篇文章将引导读者了解如何利用Docker进行容器化打包及部署,以及Kubernetes集群管理的基础操作,帮助初学者快速入门云原生的世界。通过实际案例分析,我们将深入探讨这些技术在现代IT架构中的应用与影响。
23 2
|
5天前
|
Kubernetes 监控 负载均衡
深入云原生:Kubernetes 集群部署与管理实践
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其弹性、可扩展性成为企业IT架构的首选。本文将引导你了解如何部署和管理一个Kubernetes集群,包括环境准备、安装步骤和日常维护技巧。我们将通过实际代码示例,探索云原生世界的秘密,并分享如何高效运用这一技术以适应快速变化的业务需求。
23 1
|
9天前
|
运维 Kubernetes Cloud Native
Kubernetes云原生架构深度解析与实践指南####
本文深入探讨了Kubernetes作为领先的云原生应用编排平台,其设计理念、核心组件及高级特性。通过剖析Kubernetes的工作原理,结合具体案例分析,为读者呈现如何在实际项目中高效部署、管理和扩展容器化应用的策略与技巧。文章还涵盖了服务发现、负载均衡、配置管理、自动化伸缩等关键议题,旨在帮助开发者和运维人员掌握利用Kubernetes构建健壮、可伸缩的云原生生态系统的能力。 ####
|
10天前
|
存储 运维 Kubernetes
云原生之旅:Kubernetes的弹性与可扩展性探索
【10月更文挑战第32天】在云计算的浪潮中,云原生技术以其独特的魅力成为开发者的新宠。本文将深入探讨Kubernetes如何通过其弹性和可扩展性,助力应用在复杂环境中稳健运行。我们将从基础架构出发,逐步揭示Kubernetes集群管理、服务发现、存储机制及自动扩缩容等核心功能,旨在为读者呈现一个全景式的云原生平台视图。
23 1
|
15天前
|
Kubernetes 负载均衡 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第27天】Kubernetes(简称K8s)是云原生应用的核心容器编排平台,提供自动化、扩展和管理容器化应用的能力。本文介绍Kubernetes的基本概念、安装配置、核心组件(如Pod和Deployment)、服务发现与负载均衡、网络配置及安全性挑战,帮助读者理解和实践Kubernetes在容器编排中的应用。
47 4
|
16天前
|
Kubernetes 监控 Cloud Native
云原生应用:Kubernetes在容器编排中的实践与挑战
【10月更文挑战第26天】随着云计算技术的发展,容器化成为现代应用部署的核心趋势。Kubernetes(K8s)作为容器编排领域的佼佼者,以其强大的可扩展性和自动化能力,为开发者提供了高效管理和部署容器化应用的平台。本文将详细介绍Kubernetes的基本概念、核心组件、实践过程及面临的挑战,帮助读者更好地理解和应用这一技术。
48 3
|
19天前
|
运维 Kubernetes Cloud Native
云原生入门:Kubernetes和容器化的未来
【10月更文挑战第23天】本文将带你走进云原生的世界,探索Kubernetes如何成为现代软件部署的心脏。我们将一起揭开容器化技术的神秘面纱,了解它如何改变软件开发和运维的方式。通过实际的代码示例,你将看到理论与实践的结合,感受到云原生技术带来的革命性影响。无论你是初学者还是有经验的开发者,这篇文章都将为你开启一段新的旅程。让我们一起踏上这段探索之旅,解锁云原生技术的力量吧!
|
3天前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
|
5天前
|
运维 Kubernetes Cloud Native
云原生技术:容器化与微服务架构的完美结合
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其灵活性和高效性成为企业的新宠。本文将深入探讨云原生的核心概念,包括容器化技术和微服务架构,以及它们如何共同推动现代应用的发展。我们将通过实际代码示例,展示如何在Kubernetes集群上部署一个简单的微服务,揭示云原生技术的强大能力和未来潜力。
|
6天前
|
消息中间件 存储 Cloud Native
云原生架构下的数据一致性挑战与应对策略####
本文探讨了在云原生环境中,面对微服务架构的广泛应用,数据一致性问题成为系统设计的核心挑战之一。通过分析云原生环境的特点,阐述了数据不一致性的常见场景及其对业务的影响,并深入讨论了解决这些问题的策略,包括采用分布式事务、事件驱动架构、补偿机制以及利用云平台提供的托管服务等。文章旨在为开发者提供一套系统性的解决方案框架,以应对在动态、分布式的云原生应用中保持数据一致性的复杂性。 ####