阿里云容器服务ACK云原生AI套件测评

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测监控 Prometheus 版,每月50GB免费额度
简介: 随着人工智能(AI)技术的快速发展,越来越多的企业开始在其业务中引入AI能力,以提高运营效率、优化用户体验,以及创造新的商业价值。像我们这种小型企业也不例外,希望通过集成先进的AI技术来提升业务运营的智能化水平。在这样的背景下,阿里云容器服务ACK推出了云原生AI套件,它能够帮助企业在Kubernetes容器平台上快速构建和运行AI应用,实现全栈优化。本次通过一次实验体验,简单对云原生AI套件进行测评。

一、背景介绍

随着人工智能(AI)技术的快速发展,越来越多的企业开始在其业务中引入AI能力,以提高运营效率、优化用户体验,以及创造新的商业价值。像我们这种小型企业也不例外,希望通过集成先进的AI技术来提升业务运营的智能化水平。在这样的背景下,阿里云容器服务ACK推出了云原生AI套件,它能够帮助企业在Kubernetes容器平台上快速构建和运行AI应用,实现全栈优化。

二、产品能力

通过开通云原生AI套件的界面,我们可以看到它提供了丰富的组件。其中包含了弹性、加速、调度、交互方式、工作流、监控等组件。

  1. 异构资源统一管理:阿里云容器服务ACK云原生AI套件提供了强大的资源运维管理能力,包括资源监控、告警、日志管理、性能分析等功能。
  2. 任务调度和弹性伸缩:该套件支持AI任务的动态调度和资源的弹性伸缩,能够根据业务负载自动调整计算资源,确保AI应用的性能和稳定性。
  3. 数据访问加速:通过数据访问加速服务,企业可以快速、高效地处理大量数据,提高AI模型的训练和推理速度。
  4. 工作流组件:提供可视化工作流编排工具,方便企业根据实际业务需求定制AI生产流程,提高生产效率。
  5. 监控组件:支持与阿里云的大数据服务集成,方便企业实时了解系统运行状态和性能指标。

详细的功能描述在官方文档上有给出,我这里就不再赘述。官方文档链接》》》

三、应用场景分析

以“一键训练大模型及部署GPU共享推理服务”实验为例,使用阿里云容器服务ACK云原生AI套件如何快速实现大模型的推理服务。本次实验的目的是基于容器服务ACK,使用云原生AI套件,提交Bloom模型的微调训练作业,并使用GPU共享能力部署推理服务。

3.1、实验准备

  1. 1、准备实验需要的资源。

本次实验需要用到的产品有ACK、云原生AI套件、GPU云服务器、资源编排ROS、NAS、弹性公网IP、负载均衡SLB等相关产品。

产品名

计费类型

预估费用

计费链接

容器服务ACK

按量付费

0.64元/小时 *1个

ACK Pro版集群计费说明

云原生AI套件

按量付费

本实验免费 (8张GPU卡及以下免费)

云原生AI套件计费说明

GPU云服务器

按量付费

10.345元/小时 * 1台

GPU云服务器计费说明

资源编排ROS

免费

免费

免费

文件存储NAS

按量付费

0.75元/小时 * 1个

通用型NAS计费

弹性公网IP

按量付费

0.03元/小时 * 2个

(流量费:0.8元/GB)

弹性公网IP计费说明

NAT网关

按量付费

0.195元/CU * 2个

公网NAT网关计费

负载均衡SLB

按量付费

0.22元/小时 * 2个

(流量费:0.8元/GB)

  1. 2、通过ROS资源编排快速创建基础环境(这个必须给产品同学一个大大的,如果一个个去创建需要大量的时间及精力)
  2. 3、安装云原生AI套件本次讨论主要产品
  3. 4、文件存储NAS配置
  4. 5、在GPU云服务器上安装arena客户端等
  5. 6、创建Bloom模型微调训练任务
  6. 7、在GPU云服务器上提交共享模型推理服务

3.2、实验步骤

由于实验提供较丰富的实验手册,这次我不详细介绍实验的过程,我主要描述下实验的主过程及碰到的问题。

1. 首先我通过ROS资源编排快速创建基础环境。

问题一:通过实验链接,我们快速创建发现没有可用区。而在切换地域的选择中,只有中国与新加坡的选项,怎么切换都没法进入下一步创建资源。

解决办法

我们发现在实验室的环境下,界面无法显示顶部的地域选择,我们只能通过浏览器单独打开访问进入ROS控制台进行一键创建基础环境资源。https://ros.console.aliyun.com/cn-shanghai/stacks/create?spm=a2c6h.13858378.0.0.792e5e860LiMXt&templateUrl=https://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/file-manage-files/zh-CN/20230731/ekut/ack-ai-fine-tuning(2).yaml&isSimplified=true

在解决可用区之后,我们进入到下一步,发现又出现了新的问题,NAS及CS(容器服务ACK)服务没有开通,我需要先开通之后才能进行下一步的操作。

问题二:在解决资源权限的问题之后,我点击继续创建。然后系统给了我一个大大的惊喜。根据提示,我提交了一键诊断。

解决方案:

通过诊断描述,应该是某些服务产品的权限没有开通,于是逐一排查该实验所需要的所有产品权限,最后发现是容器服务ACK的权限没有开通。按照要求我把授权开通后,可以顺利进入到下一步。

问题三:在通过ROS提交创建之后,我们进入资源栈信息页签中,等待资源创建成功。然而这个等待过程太漫长,实验手册上没有任何的相关提示。这点体验非常不好。

直到最后创建完,我大概用了13分钟

2. 安装云原生AI套件

古语有云“好事多磨”,在历经一番努力后,我们终于成功汇集了所有资源。接下来,我们将进入本次任务的核心——“安装云原生AI套件”。在开通云原生AI套件的过程中,我们见证了流畅无阻的整个过程,仿佛在欣赏一部完美的乐章。各个环节的衔接让人感受到阿里云的专业与细致。(大赞

3. 接着我们将进行文件存储NAS配置。

整个配置过程还算比较顺畅,只是在进行数据下载到NAS服务的节点操作的时候,操作入口文案理解有误,导致入口找错了。还好手册中给出了截图,再次核对之后,找到了正确的配置入口。

接下来就是执行NAS文件挂载命令。在这个操作过程中,我建议把需要修改为自定义配置的信息标红并把字体调大。

然后就开始下载bloom模型和训练数据,在这个过程我们有需要进入一个等待过程。

执行过程有点慢,需要5分钟左右!!!

4. 接下来进行我们就要进行提交Bloom模型微调训练任务,然后我们在执行以下命令的时候,系统报错了

arena submit pytorchjob \ --name=bloom-sft \ --gpus=1 \ --image=registry.cn-hangzhou.aliyuncs.com/acs/deepspeed:v0.9.0-chat \ --data=training-data:/model \ --tensorboard \ --logdir=/model/logs \ "cd /model/DeepSpeedExamples/applications/DeepSpeed-Chat/training/step1_supervised_finetuning && bash training_scripts/other_language/run_chinese.sh /model/bloom-560m-sft"

最后是发现命令中的--image=registry.cn-hangzhou.aliyuncs.com/acs/deepspeed:v0.9.0-chat  需要改为--image=registry.cn-shanghai.aliyuncs.com/acs/deepspeed:v0.9.0-chat,而在操作手册中,没有任何提示。

5. 最后提交GPU共享模型推理服务

6. 吐槽资源释放的问题

3.3、实验结果

  1. 成功安装云原生AI套件。
  2. 成功创建并提交了基于Bloom模型的微调训练作业。
  3. 使用GPU云服务器共享能力成功部署了推理服务。
  4. 使用样本代码进行模型推理,得到了预期的结果。

3.4、实验总结

我成功地在阿里云的容器服务ACK和云原生AI套件的帮助下,快速构建了一个在Kubernetes容器平台上的AI生产系统。通过本次实验,我学会了如何在云环境下开发和部署AI应用,同时也证明了ACK和云原生AI套件在GPU共享、模型训练和推理方面的高效性能。这将为未来在云环境下进行大规模AI应用开发和部署提供指导意义。

四、优势与不足

  1. 优势:
  • 能够满足企业在AI生产流程中的需求,提供全栈优化服务;
  • 强大的资源运维管理和弹性伸缩能力,能够保证系统稳定性和性能;
  • 高效的数据访问加速和大数据服务集成,提高数据处理效率;
  • 可视化工作流编排和工作流管理,简化AI生产流程的编排和管理;
  • 统一监控运维平台简化AI应用的运维工作,提高系统稳定性。
  1. 不足:
  • 对于非阿里云用户来说,可能需要额外的学习和适应;这次实验我整整用了差不多3个小时,耗费了巨资哈。
  • 在某些特定场景下,可能需要额外的定制化开发。

五、性价比评价

考虑到阿里云容器服务ACK云原生AI套件的综合功能和性能,以及提供的服务质量,我们认为该套件的性价比相对较高。对于需要快速构建和运行AI应用的企业,尤其是中小型企业业务平台,该套件可以节省大量的开发成本和时间,提高业务运营效率和质量。

六、总结

阿里ACK云原生AI套件是一种能够帮助企业在容器平台上构建、管理和部署AI系统的技术和产品方案。它结合了机器学习、自然语言处理、计算机视觉等多种技术,支持异构算力的管理和调度,可以一键训练大模型和部署GPU共享推理服务。它在智能客服、图像处理、语音识别等多个领域都能提供高效、稳定的AI服务,有助于企业实现智能化升级和数字化转型。这是一个值得信赖的AI技术和产品方案,可以帮助企业在智能化浪潮中获得成功。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
17天前
|
供应链 安全 Cloud Native
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
阿里云飞天企业版容器系列产品获中国信息通信研究院【可信云·容器平台安全能力】先进级认证,这是飞天企业版容器产品获得《等保四级PaaS平台》和《 云原生安全配置基线规范V2.0》之后,本年度再一次获得行业权威认可,证明飞天企业版的容器解决方案具备符合行业标准的最高等级容器安全能力。
阿里云飞天企业版获【可信云·容器平台安全能力】先进级认证
|
3天前
|
存储 弹性计算 运维
阿里云云原生NDR发布:全流量防御能力升级
阿里云发布云原生NDR,提供全流量威胁检测与响应能力。该产品无需部署,支持一键接入、自动留存攻击报文,并具备多引擎关联分析、资产风险管理等功能,有效提升高级威胁应对能力。典型客户案例显示,NDR在重保防护、敏感数据泄露和日志合规等场景中表现出色。总结来看,NDR强调原生化、性价比和强检测,帮助用户简化安全运营并降低成本。
26 11
|
11天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 12 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
3天前
|
运维 关系型数据库 分布式数据库
阿里云PolarDB:引领云原生数据库创新发展
阿里云PolarDB引领云原生数据库创新,2024云栖大会将分享其最新发展及在游戏行业的应用。PolarDB凭借弹性、高可用性、多写技术等优势,支持全球80多个站点,服务1万多家企业。特别是针对游戏行业,PolarDB助力Funplus等公司实现高效运维、成本优化和业务扩展。通过云原生能力,PolarDB推动游戏业务的全球化部署与快速响应,提升用户体验并保障数据安全。未来,PolarDB将继续探索AI、多云管理等前沿技术,为用户提供更智能的数据基础设施。
|
18天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
18天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
1月前
|
监控 NoSQL 时序数据库
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
262 77
|
11天前
|
Ubuntu NoSQL Linux
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
83 6
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
|
1月前
|
监控 Docker 容器
在Docker容器中运行打包好的应用程序
在Docker容器中运行打包好的应用程序
|
22天前
|
Ubuntu Linux 开发工具
docker 是什么?docker初认识之如何部署docker-优雅草后续将会把产品发布部署至docker容器中-因此会出相关系列文章-优雅草央千澈
Docker 是一个开源的容器化平台,允许开发者将应用程序及其依赖项打包成标准化单元(容器),确保在任何支持 Docker 的操作系统上一致运行。容器共享主机内核,提供轻量级、高效的执行环境。本文介绍如何在 Ubuntu 上安装 Docker,并通过简单步骤验证安装成功。后续文章将探讨使用 Docker 部署开源项目。优雅草央千澈 源、安装 Docker 包、验证安装 - 适用场景:开发、测试、生产环境 通过以上步骤,您可以在 Ubuntu 系统上成功安装并运行 Docker,为后续的应用部署打下基础。
docker 是什么?docker初认识之如何部署docker-优雅草后续将会把产品发布部署至docker容器中-因此会出相关系列文章-优雅草央千澈

相关产品

  • 容器服务Kubernetes版