云原生AI套件测评报告

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 个人测评

一、云原生AI套件介绍

根据我对云原生AI套件介绍的理解如下:云原生AI套件以Kubernetes容器服务为底座,向下封装对各类异构资源的统一管理,向上提供标准Kubernetes集群环境和API,以运行各核心组件,实现资源运维管理、AI任务调度和弹性伸缩、数据访问加速、工作流编排、大数据服务集成、AI作业生命周期管理、AI制品管理、统一运维等服务。

云原生AI套件针对AI生产流程中的主要环节,支持AI数据集管理、AI模型开发、训练、评测,以及模型推理服务等。您可以通过统一的命令行工具、多种语言SDK和控制台界面,直接使用各核心组件。您也可以进行灵活地扩展、组装或二次开发,快速定制化构建AI生产系统。通过同样的组件和工具,云原生AI套件也支持阿里云AI服务、开源AI框架和第三方AI能力的集成。

此外,云原生AI套件支持与阿里云机器学习平台PAI无缝集成,提供高效、灵活的一站式AI平台。一方面,您可以直接使用PAI平台提供的DSW、DLC、EAS等服务。这些服务借助ACK为AI模型开发、训练和推理带来了更好的弹性和效率。另一方面,云原生AI套件支持在ACK集群中一键部署轻量化机器学习PAI平台,降低AI使用门槛。在Kubernetes应用中,您可以灵活地集成PAI平台深度优化的算法和引擎,依托其最佳实践沉淀,极大优化训练与推理效果。

云原生AI套件的功能包含

1. 异构资源统一管理

对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,云原生AI套件支持对其进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。

2. AI任务调度

云原生AI套件兼容Tensorflow、Pytorch、Horovod、Spark、Flink等主流开源或者用户自有的各种计算引擎和运行时,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本,另一方面持续改善开发运维体验和工程效率。

3. 弹性AI任务

云原生AI套件根据上述云原生AI套件概述,我总结出它的主要功能特点如下:

基于Kubernetes实现异构资源的统一调度和管理。

支持多种AI框架和运行时环境。

一站式集成阿里云AI服务产品。

弹性扩展AI任务,优化性能、成本和效率。

统一作业生命周期管理。

提供CLI、SDK和UI统一访问。

轻松定制化构建AI生产系统。

与PAI深度集成,提供更强AI能力。

二、云原生AI套件的应用示例

当多个开发人员在一个公司或大团体下使用Arena进行工作时,为了有效管理,可能需要对这些人员进行小组划分,且每个小组需要彼此隔离。这样在同一个集群内,小组就是分配、隔离资源和权限的基本单元,我们可以进行以下相关模拟操作,来解决上述问题,实操如下:

(一)创建和管理ACK集群的用户和组

1. 在与ACK集群同VPC下创建ECS实例作为Client机器。

2. 在Client机器上创建用户bob、tom和组dev1、dev2,分配对应的UID和GID。

groupadd -g 10001 dev1 
groupadd -g 10002 dev2
adduser -u 20001 -s /bin/bash -G dev1 -m bob
adduser -u 20002 -s /bin/bash -G dev2 -m tom

3. 通过kubectl连接ACK集群。

4. 在ACK集群中创建对应的Namespace和ServiceAccount。

kubectl create namespace dev1
kubectl create namespace dev2 
kubectl create serviceaccount bob -n dev1
kubectl create serviceaccount tom -n dev2

(二)为用户配置Arena的使用环境

1. 在Client机器上以root身份安装Arena。

2. 为每个用户生成KubeConfig文件。

./createKubeConfig.sh bob -n dev1
./createKubeConfig.sh tom -n dev2

3. 将KubeConfig文件放到每个用户的home目录下。

mkdir -p /home/bob/.kube/ && cp bob.config/home/bob/.kube/config
mkdir -p /home/tom/.kube/ && cp tom.config/home/tom/.kube/config

(三)为用户配置Arena的权限

1. 为dev1和dev2创建角色定义文件dev1_roles.yaml和dev2_roles.yaml。

2. 应用角色定义文件使之生效。

kubectl apply -f dev1_roles.yaml
kubectl apply -f dev2_roles.yaml

3. 创建角色绑定文件bob_rolebindings.yaml和tom_rolebindings.yaml。

4. 应用角色绑定文件进行用户角色赋权。

kubectl apply -f bob_rolebindings.yaml  
kubectl apply -f tom_rolebindings.yaml

(四)配置用户组资源配额

1. 根据需求创建组配额文件dev1_quota.yaml和dev2_quota.yaml。

2. 应用配额文件。

kubectl apply -f dev1_quota.yaml
kubectl apply -f dev2_quota.yaml

(五)配置多级别共享存储

1. 创建NAS实例,并在其下创建多个挂载点。

2. 创建PV,设置NAS挂载信息。

3. 创建PVC,绑定PV。

(六)用户登录测试

1. bob用户登录,提交作业测试组资源限制。

2. tom用户登录,测试使用自己组资源,未看到bob作业。

三、ACK云原生AI套件产品体验测评

(一)产品文档

ACK云原生AI套件提供的文档资料比较丰富,包括快速入门、操作指南、API文档等,基本涵盖了使用该产品需要的各方面知识。文档描述相对完整和准确,通过文档可以对产品有一个全面的了解。

不过也存在一些可以改进的地方:

1)对某些复杂操作的步骤描述不够详细,初学者可能需要结合其他渠道获得信息。

2)文档示例中的代码实例不完整,无法直接拿来运行使用。

3)接口文档中对输入和输出参数的说明不够明确。

4)文档缺少对错误提示信息的解释,当运行失败时无法快速定位问题。

5)文档中对产品最佳实践的讲解不够,无法让用户快速上手。

总体来说,文档资料已经能够满足产品使用需求,但在细节描述和最佳实践方面还有提升空间。

(二)产品能力

ACK云原生AI套件提供了资源管理、任务调度、数据加速等全面的功能,基本能满足AI开发和训练的需求。

1)在资源管理方面,对异构资源实现了统一调度和管理,提高资源利用率。

2)支持主流AI框架,统一作业生命周期管理。

3)支持数据集管理、模型管理、训练、评测、推理等AI全流程。

4)提供了命令行、SDK、控制台多种使用方式。

5)支持函数计算等Serverless架构,弹性扩展。

使用下来,产品功能强大,但也存在一些需要改进的地方:

1)资源统计和利用率监控可以更加细致丰富。

2)任务日志可以提供实时查看,方便排查问题。

3)支持更多预置的算法和模型,降低训练成本。

4)可以提供更多的SDK语言版本。

总体上,ACK云原生AI套件在产品能力上可以满足核心需求,通过持续迭代可以不断提升用户体验。

(三)产品控制台

ACK云原生AI套件的控制台界面美观大方、页面布局合理,核心功能入口清晰易找到。使用下来,基本流程可以通过控制台顺利完成。

优点如下:

1)部署和管理资源的页面操作便捷。

2)资源监控数据清晰展示。

3)支持视觉化构建训练流程。

4)任务日志查询方便。

但也存在一些方面的不足:

1)某些进阶管理功能在控制台中不容易找到。

2)监控页面的配置项不够丰富。

3)日志搜索功能可以加强。

4)可以提供更丰富的模板及Demo。

5)可以优化控制台的加载速度。

总体来说,ACK云原生AI套件的控制台可视化程度高,使用体验良好,通过持续优化可以更好地辅助产品使用。

(四)产品集成

ACK云原生AI套件与ACK的集成非常紧密,可以实现基于Kubernetes的资源管理和调度。与Prometheus的集成也比较顺畅,可以进行丰富的监控统计。

但是在与其他外部存储和计算产品的集成方面还有改进空间,期待后续支持更多存储和计算服务的接入。例如:

1)对象存储OSS的集成可以更加紧密,实现模型和数据的无缝管理。

2)支持更多公有云和私有云数据集成,降低数据导入成本。

3)支持无服务器计算产品和功能的集成,增加资源弹性。

4)实现与更多外部调度系统的对接,提升跨平台协同能力。

5)支持将训练好的模型部署到边缘计算环境,实践端云协同。

总体来说,ACK云原生AI套件的产品集成支持主要的核心产品,用户可以基本满足使用需求。但扩展性和开放性还有提升空间,需要持续扩大集成范围,提升平台价值。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
18天前
|
人工智能 编解码 搜索推荐
深度测评-主动式智能导购 AI 助手构建的实现与优化
本文深度测评某平台提供的函数计算应用模板,用于快速搭建集成智能导购的电商网站。通过简洁直观的创建与部署流程,用户只需填写API Key等基本信息,即可完成配置。智能导购AI助手能通过多轮对话引导顾客明确需求,精准推荐商品,提升购物体验和转化率。系统支持自定义设置,具备高效、个性化、灵活扩展的特点。未来可引入更多维度推荐、机器学习及语音识别技术,进一步优化导购效果。
108 15
深度测评-主动式智能导购 AI 助手构建的实现与优化
|
2天前
|
人工智能 搜索推荐 Serverless
《AI 剧本生成与动画创作》解决方案测评报告
《AI 剧本生成与动画创作》解决方案测评报告
|
9天前
|
人工智能 运维 监控
评测报告:AI驱动的操作系统服务套件体验
评测报告:AI驱动的操作系统服务套件体验
20 3
|
16天前
|
人工智能 运维 Cloud Native
云原生 Meetup,AI 应用工程化专场·广州站
欢迎莅临广州市海珠区鼎新路 88 号广州阿里中心,O-N-10-02 春秋书院。报名成功后,您将在活动前一周收到短信通知。
|
28天前
|
SQL 人工智能 API
智能导购AI助手测评 | 替代未来客服的保障方案
阿里云推出的主动式智能导购AI助手,采用Multi-Agent架构,通过规划助理、商品导购助理和历史对话信息,为顾客提供个性化的产品推荐。无论是商家还是顾客,都能从中受益。它不仅帮助顾客在购买不熟悉的产品时做出明智选择,还让商家更高效地服务客户。开发者可快速部署,使用便捷,大大降低AI技术门槛。
107 11
|
21天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
1月前
|
人工智能 自然语言处理 算法
主动式智能导购 AI 助手解决方案实践与测评
主动式智能导购 AI 助手解决方案实践与测评
|
4天前
|
人工智能 运维 安全
AI 驱动,全面升级!操作系统服务套件体验评测
作为一名运维工程师,我体验了阿里云的操作系统服务套件,选择了Alibaba Cloud Linux作为测试环境。通过安装SysOM和OS Copilot组件,轻松管理集群健康数据、进行系统诊断并获得优化建议。OS Copilot智能解答技术问题,节省查阅资料时间;订阅管理帮助我及时升级操作系统,保障安全。整体功能强大,提升了约20%的工作效率,值得推广。建议增加更多系统版本支持及自动优化功能。
|
1月前
|
人工智能 自然语言处理 安全
主动式智能导购AI助手构建方案测评
主动式智能导购AI助手构建方案测评
59 12
|
1月前
|
人工智能 自然语言处理 搜索推荐
主动式智能导购AI助手构建测评
主动式智能导购AI助手构建解决方案测评
35 4

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等