如何安装 ACK 云原生 AI 套件| 学习笔记

简介: 快速学习如何安装 ACK 云原生 AI 套件

开发者学堂课程【5分钟玩转阿里云容器服务如何安装 ACK 云原生 AI 套件】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1038/detail/18153


如何安装 ACK 云原生 AI 套件

 

今天我们带大家玩转的是容器服务之云原生AI套件安装。

云原生AI套件,通过数据计算类任务的编排、管理以及对各种异构计算资源的容器化统一调度和运维,显著提高 GPU/NPU 等计算集群的资源使用效率和AI工程交付速度。阿里云容器服务 ACK 以组件化、可拼装、可扩展、可定制化的灵活方式,提供了云原生 AI 能力的产品支持。下面我将给大家带来云原生 AI 套件的安装操作介绍。

当前大家看到的是我们 ACK 集群页面,在左侧的菜单栏我们选择应用,然后选择云原生 AI 套件,点击一键部署,进入云原生 AI 套件部署页面。

image.png

此时我们看到的是云原生 AI 套件,可供大家选择使用的组件。弹性训练是基于 ACK 弹性调度,为训练任务提供弹性伸缩能力的组件。弹性推理,是基于 ACK 弹性调度,为在线推理服务提供弹性伸缩能力的组件。

fluid的数据加速是基于云原生的分布式数据集编排和加速引擎,主要服务于云原生场景下数据密集型应用,例如大数据应用, AI 应用,调度组件针对 AI 和大数据的特性提供了支持批量任务调度、 GPU 共享调度、 GPU 拓扑感知调度等策略,可以有效提升集群的资源利用率。

arena 基于云原生的机器学习轻量级解决方案,支持数据准备,模型开发,模型训练模型预测的完整生命周期,可以有效提升数据科学家工作效率。即为大家提供了命令行和 SDK 两种使用方式。

image.png

控制台包括了开发控制台和运维控制台。通过控制台可以为大家带来云原生 AI 套件,更加便捷的基于 UI 的使用方式。安装控制台时,我们首先要为我们的 RAM 账号进行授权,之后我们可以选择运维控制台和开发控制台的访问方式。这里我们选择公网域名的方式。

image.png

控制台使用了关系型数据库。当前我们提供了集群内置 MySQL 和阿里云 RDS 两种方案。为了保证数据的高可用,生产系统建议大家选择阿里云 RDS 工作流是基于 coupon flow pipeline 为大家提供任务编排、实验管理和模型追溯能力的组件。kubeflow pipeline 使用了对象存储,当前我们提供了集群内置 mio 和阿里云 OSS 两种方案。为了保证数据的高可用,生产系统请大家选择阿里云 OSS 方案。

image.png

监控组件是为大家提供资源和任务层面的,具体监控的数据可以在控制台查看。选择完所有组件后,点击云原生当 AI 套件部署按钮即可以进入部署环节。前面我们能看见所部署组件的列表,当顶部的运维控制台和开发控制台显示就绪后,我们可以开始与原生 AI 套件的使用。

image.png

这里我们首先点击运维控制台的链接。运维控制台首先为我们展示的是整个集群的信息,这里面包括节点级的信息和任务级的信息。运维控制台的左侧分别是 resource quota user dataset 和 elastic job 。

image.png

这里我们点击 user 选择一个账户,系统中默认会有一个管理员账户,我们复制账户的 token 用来开发控制台的登录。

image.png

我们回到控制台页面,点击开发控制台链接,输入我们刚刚复制的 token ,此时我们已经进入了云原生 AI 套件的开发控制台,控制台的首页展示了整个集群的信息和任务的状态。在开发控台的左侧,分别是数据配置 Notebook 提交任务列表、定时任务、模型管理,评测任务 coupon flow pipeline。

image.png

我们点击 Notebook 来去创建一个 Notebook ,输入 Notebook 的名称,选择一个 Notebook 的镜像,选择命名空间。在下面我们可以配置镜像拉取的凭证、数据的数据源等信息。右侧我们可以配置 Notebook 的资源信息,点击创建 Notebook 。

image.png

此时展示的是 Notebook 列表。我们可以在这里看到当前我们所创建 Notebook 的状态。现在 Notebook 已经处于 running 状态,

我们点击名称下面的链接,可以进入到 Notebook 。

image.png

云原生 AI 套件的 Notebook 与大家所熟知的使用方式保持一致。在这里我们的数据科学家就可以按照他的方式来开始他的模型或者数据的开发工作。

image.png

我们再回到开发控制台,点击提交任务。在提交任务这个页面里面,我们可以提交一次训练任务。当前在开发控制台支持的任务类型有 TF 单机 ,TF 分布式,pytorch单机,pytorch分布式。在提交任务时,我们可以指定命名空间、数据源配置,代码配置镜像拉取凭证、输出路径、执行的脚本等信息。在右侧我们可以配置所执行的 worker 的数量,镜像信息,资源信息。在右下方,我们可以指定更高级的云原生相关的配置信息。

image.png

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
1月前
|
人工智能 运维 Kubernetes
ACK AI 助手 beta 版现已全面上线
ACK AI 助手 beta 版现已全面上线
14 3
|
6天前
|
Kubernetes Cloud Native 持续交付
构建高效云原生应用:以Kubernetes为核心
【4月更文挑战第27天】 在当今数字化转型的浪潮中,企业急需构建灵活、可扩展的应用来应对不断变化的市场需求。云原生技术以其独特的优势应运而生,成为推动现代应用开发和部署的重要力量。本文深入探讨了云原生的核心组件之一——Kubernetes,解析其如何通过容器编排优化资源利用,提高应用的弹性和可维护性。同时,文章将展示如何在云平台上实现高效的服务发现、自动扩缩容以及持续集成和持续部署(CI/CD),进一步阐述云原生架构下的最佳实践和面临的挑战。
|
19天前
|
Kubernetes Linux 网络安全
kubeadm安装k8s
该文档提供了一套在CentOS 7.6上安装Docker和Kubernetes(kubeadm)的详细步骤,包括安装系统必备软件、关闭防火墙和SELinux、禁用swap、开启IP转发、设置内核参数、配置Docker源和加速器、安装指定版本Docker、启动Docker、设置kubelet开机启动、安装kubelet、kubeadm、kubectl、下载和配置Kubernetes镜像、初始化kubeadm、创建kubeconfig文件、获取节点加入集群命令、下载Calico YAML文件以及安装Calico。这些步骤不仅适用于v1.19.14,也适用于更高版本。
78 1
|
20天前
|
Kubernetes 监控 Cloud Native
构建高效云原生应用:基于Kubernetes的微服务治理实践
【4月更文挑战第13天】 在当今数字化转型的浪潮中,企业纷纷将目光投向了云原生技术以支持其业务敏捷性和可扩展性。本文深入探讨了利用Kubernetes作为容器编排平台,实现微服务架构的有效治理,旨在为开发者和运维团队提供一套优化策略,以确保云原生应用的高性能和稳定性。通过分析微服务设计原则、Kubernetes的核心组件以及实际案例,本文揭示了在多变的业务需求下,如何确保系统的高可用性、弹性和安全性。
19 4
|
1月前
|
Kubernetes 容器
安装ipvsadm并且k8s开启IPVS模式
安装ipvsadm并且k8s开启IPVS模式
10 0
|
2月前
|
人工智能 监控 Serverless
如何基于ACK Serverless快速部署AI推理服务
通过上述步骤,可以在ACK Serverless上快速部署AI推理服务,实现高可用、弹性扩展的服务架构。
22 1
|
2月前
|
Kubernetes 关系型数据库 Linux
linux安装centos7 kubenetes 单机版安装k8s
linux安装centos7 kubenetes 单机版安装k8s
41 0
|
2月前
|
Kubernetes 测试技术 API
ChaosBlade常见问题之安装K8S探针心跳检测失败如何解决
ChaosBlade 是一个开源的混沌工程实验工具,旨在通过模拟各种常见的硬件、软件、网络、应用等故障,帮助开发者在测试环境中验证系统的容错和自动恢复能力。以下是关于ChaosBlade的一些常见问题合集:
21 0
|
2月前
|
Kubernetes Cloud Native Docker
【云原生】kubeadm快速搭建K8s集群Kubernetes1.19.0
Kubernetes 是一个开源平台,用于管理容器化工作负载和服务,提供声明式配置和自动化。源自 Google 的大规模运维经验,它拥有广泛的生态支持。本文档详细介绍了 Kubernetes 集群的搭建过程,包括服务器配置、Docker 和 Kubernetes 组件的安装,以及 Master 和 Node 的部署。此外,还提到了使用 Calico 作为 CNI 网络插件,并提供了集群功能的测试步骤。
222 0
|
12天前
|
消息中间件 Cloud Native 开发者
电子好书发您分享《阿里云云原生开源开发者沙龙北京站 PPT 合集 》
**阿里云开源沙龙PPT合集:北京站聚焦云原生技术** 探索云原生领域的深度与广度,[阿里云](https://developer.aliyun.com/ebook/8334/116563?spm=a2c6h.26392459.ebook-detail.5.da096cf6t38G15)分享了北京开发者沙龙的精彩内容,涵盖微服务、消息队列等主题,助力开发者洞悉行业趋势。![image](https://ucc.alicdn.com/pic/developer-ecology/cok6a6su42rzm_67b12f6cad6e4b2786859b3a668b3351.png)
15 3

热门文章

最新文章