如何安装 ACK 云原生 AI 套件| 学习笔记

简介: 快速学习如何安装 ACK 云原生 AI 套件

开发者学堂课程【5分钟玩转阿里云容器服务如何安装 ACK 云原生 AI 套件】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1038/detail/18153


如何安装 ACK 云原生 AI 套件

 

今天我们带大家玩转的是容器服务之云原生AI套件安装。

云原生AI套件,通过数据计算类任务的编排、管理以及对各种异构计算资源的容器化统一调度和运维,显著提高 GPU/NPU 等计算集群的资源使用效率和AI工程交付速度。阿里云容器服务 ACK 以组件化、可拼装、可扩展、可定制化的灵活方式,提供了云原生 AI 能力的产品支持。下面我将给大家带来云原生 AI 套件的安装操作介绍。

当前大家看到的是我们 ACK 集群页面,在左侧的菜单栏我们选择应用,然后选择云原生 AI 套件,点击一键部署,进入云原生 AI 套件部署页面。

image.png

此时我们看到的是云原生 AI 套件,可供大家选择使用的组件。弹性训练是基于 ACK 弹性调度,为训练任务提供弹性伸缩能力的组件。弹性推理,是基于 ACK 弹性调度,为在线推理服务提供弹性伸缩能力的组件。

fluid的数据加速是基于云原生的分布式数据集编排和加速引擎,主要服务于云原生场景下数据密集型应用,例如大数据应用, AI 应用,调度组件针对 AI 和大数据的特性提供了支持批量任务调度、 GPU 共享调度、 GPU 拓扑感知调度等策略,可以有效提升集群的资源利用率。

arena 基于云原生的机器学习轻量级解决方案,支持数据准备,模型开发,模型训练模型预测的完整生命周期,可以有效提升数据科学家工作效率。即为大家提供了命令行和 SDK 两种使用方式。

image.png

控制台包括了开发控制台和运维控制台。通过控制台可以为大家带来云原生 AI 套件,更加便捷的基于 UI 的使用方式。安装控制台时,我们首先要为我们的 RAM 账号进行授权,之后我们可以选择运维控制台和开发控制台的访问方式。这里我们选择公网域名的方式。

image.png

控制台使用了关系型数据库。当前我们提供了集群内置 MySQL 和阿里云 RDS 两种方案。为了保证数据的高可用,生产系统建议大家选择阿里云 RDS 工作流是基于 coupon flow pipeline 为大家提供任务编排、实验管理和模型追溯能力的组件。kubeflow pipeline 使用了对象存储,当前我们提供了集群内置 mio 和阿里云 OSS 两种方案。为了保证数据的高可用,生产系统请大家选择阿里云 OSS 方案。

image.png

监控组件是为大家提供资源和任务层面的,具体监控的数据可以在控制台查看。选择完所有组件后,点击云原生当 AI 套件部署按钮即可以进入部署环节。前面我们能看见所部署组件的列表,当顶部的运维控制台和开发控制台显示就绪后,我们可以开始与原生 AI 套件的使用。

image.png

这里我们首先点击运维控制台的链接。运维控制台首先为我们展示的是整个集群的信息,这里面包括节点级的信息和任务级的信息。运维控制台的左侧分别是 resource quota user dataset 和 elastic job 。

image.png

这里我们点击 user 选择一个账户,系统中默认会有一个管理员账户,我们复制账户的 token 用来开发控制台的登录。

image.png

我们回到控制台页面,点击开发控制台链接,输入我们刚刚复制的 token ,此时我们已经进入了云原生 AI 套件的开发控制台,控制台的首页展示了整个集群的信息和任务的状态。在开发控台的左侧,分别是数据配置 Notebook 提交任务列表、定时任务、模型管理,评测任务 coupon flow pipeline。

image.png

我们点击 Notebook 来去创建一个 Notebook ,输入 Notebook 的名称,选择一个 Notebook 的镜像,选择命名空间。在下面我们可以配置镜像拉取的凭证、数据的数据源等信息。右侧我们可以配置 Notebook 的资源信息,点击创建 Notebook 。

image.png

此时展示的是 Notebook 列表。我们可以在这里看到当前我们所创建 Notebook 的状态。现在 Notebook 已经处于 running 状态,

我们点击名称下面的链接,可以进入到 Notebook 。

image.png

云原生 AI 套件的 Notebook 与大家所熟知的使用方式保持一致。在这里我们的数据科学家就可以按照他的方式来开始他的模型或者数据的开发工作。

image.png

我们再回到开发控制台,点击提交任务。在提交任务这个页面里面,我们可以提交一次训练任务。当前在开发控制台支持的任务类型有 TF 单机 ,TF 分布式,pytorch单机,pytorch分布式。在提交任务时,我们可以指定命名空间、数据源配置,代码配置镜像拉取凭证、输出路径、执行的脚本等信息。在右侧我们可以配置所执行的 worker 的数量,镜像信息,资源信息。在右下方,我们可以指定更高级的云原生相关的配置信息。

image.png

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1370 56
|
10月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
11月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
875 17
|
6月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
970 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
5月前
|
人工智能 Cloud Native 关系型数据库
云栖重磅|瑶池数据库:从云原生数据底座向“AI就绪”的多模态数据底座演进
瑶池数据库:从云原生数据底座向“AI就绪”的多模态数据底座演进
|
8月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。
|
10月前
|
人工智能 Cloud Native Java
2025 开源之夏开启报名|AI + 云原生,10个开源项目、24个课题任您挑选
“开源之夏”是由中国科学院软件研究所发起的暑期活动,旨在鼓励高校学生参与开源软件开发与维护。活动联合各大开源社区提供项目任务,面向全球年满18周岁的高校学生开放报名。每位学生最多可申请一个项目。阿里云云原生提报了包括Apache Dubbo、RocketMQ、Seata等在内的10个开源项目共24个课题,涵盖技术优化、功能实现及AI应用等领域。活动流程包括选题、申请、开发与结项考核,具体信息可访问官网了解。
2888 32
|
10月前
|
存储 人工智能 Cloud Native
【发布实录】云原生+AI,助力企业全球化业务创新
本文介绍了阿里云在云原生与AI结合领域的最新产品发布和技术创新。首先,通过弹性智能的一体化架构,阿里云为AI场景提供了开箱即用的云原生能力,助力企业出海。其次,详细解析了云原生如何助力AI应用构建,包括Function AI平台、GPU极速模式、MCP Server开发托管及AI网关等核心功能。
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。这两项先进的工业设计与仿真基础设施成果通过AI技术赋能科学研究和工业研发,不仅大幅缩短了药物研发周期,降低了成本,还显著提高了研发成功率,为生物医药行业带来了前所未有的变革,这是AI for Science领域的重大突破。
781 38
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
近日,阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。
AI变革药物研发:深势科技的云原生实践之路

热门文章

最新文章

推荐镜像

更多