随着生成式 AI 概念爆火, AI-native 应用成为企业在 AI 时代的重点发力方向。新技术、新数据类型、新工作流所产生的复杂应用链路拓扑、组件依赖、大模型领域洞察催生出多元且复杂的运维需求,这都需要通过可观测性来保障服务 SLA 以及终端用户使用体验。
因此,面向 AI-native 应用技术栈的可观测能力解决方案成为日益重要的话题。本次云栖大会,阿里云正式发布 AI-native 全栈可观测平台,旨在帮助企业高效、低成本构建面向 AI-native 的可观测体系。
针对 AI infra ,阿里云通过软硬件一体化设计的算力集群服务“灵骏”对外提供高性能计算节点,灵骏以磐久服务器、高性能 RDMA 网络两部分组成,灵骏集群以分组-计算节点方式进行交付。借助 AI-native 全栈可观测平台,实现节点计算资源 GPU、RDMA、Nimitz 等组件监控数据以 Pushgateway 协议上报至 Prometheus,采集并观测 IaaS 层 CPU、内存、硬盘、网络及算力等各方面 1000+ 指标,实现集群级、节点级 GPU、RDMA 等资源的可观测能力。
为了进一步提升企业对于异构资源的调度能力,阿里云提供 ACK 灵骏托管集群与 AI 套件,向下封装对各类异构资源进行统一管理,向上提供标准 K8s 集群环境,提供高效、灵活的一站式 AI 平台。ACK 灵骏集群内置 Prometheus,一键采集整个 K8s 集群全部资源、组件的可观测数据。节点上安装阿里云增强的 GPU-Exporter 将 DCGM 服务以指标形式暴露出来,并通过集群-节点-Pod 维度展现 GPU 资源情况。同时,AI 套件通过 GPU 共享调度和 GPU 拓扑感知调度,实现高效管理 GPU 程序及 GPU 隔离,其 GPU 监控 2.0 基于 NVIDIA DCGM 构建。借助以上二者,帮助企业更直观地观测与管理异构算力资源。
为了能够让企业更高效、便捷地构建机器学习平台,阿里云提供 PaaS 层产品人工智能平台 PAI ,实现从数据准备、模型开发与训练及模型部署全阶段、全流程的覆盖。AI-native 全栈可观测平台为 PAI 产品提供全栈可观测能力,支持 EAS 在线推理指标,DLC 训练作业级、节点级、LRN 级资源指标透出,容器组件、节点、Pod 等集群相关资源指标,底层基础设施算力节点的可观测数据全采集、存储,并提供开箱即用的完整可观测大盘。
MaaS(Model as a Service)作为 AI-native 新生的服务理念,企业毋需关心模型训练、部署、维护等复杂过程,只需调用 API 并传入适当输入数据,就可以获得模型预测或分析结果,降低企业和个人应用 AI 技术的门槛。阿里云借助大模型服务平台百炼,通过标准化 API 提供模型推理、模型微调训练等多种模型服务。百炼将各种大模型、业务网关可观测数据写入 AI-native 全栈可观测平台,Prometheus 通过流式 ETL 工具实时将日志数据转换成指标数据分发到各租户名下,形成百炼模型 API 层面的可观测指标全覆盖。采集到的可观测数据被应用于性能观测(延迟/吞吐/资源利用)、稳定性评估(数据质量/漂移/异常洞察)、成本管控(Tokens/计算资源)、安全合规(隐私/合规)等不同应用场景。
相较于 Cloud-native 应用,AI-native 应用致力于追求更佳的模型效率与效果。因此,AI-native 应用可观测聚焦于推理性能的提升,模型输入输出的质量优化及资源消耗的有效管理。AI-native 应用的可观测性需要处理更高维度的数据,尤其涉及自然语言处理的复杂度,需要对模型输出进行语义分析。要实现上述 LLM Trace 语义的数据采集与上报,需具备端侧埋点自动采集以及对接服务端上报数据的能力。
为了更好观测以 Python 作为开发语言的 AI-native 应用,阿里云全新推出基于 OpenTelemetry Python Agent 底座的自研 Python Agent,支持 LLamaIndex/LangChain/通义千问/OpenAI 等国内外主流框架和模型,并支持最新 OpenTelemetry LLM semantic convention,实现精细化埋点的同时,支持自定义属性透传能力,从而提供更丰富的指标、链路及持续剖析数据,灵活的采样策略,细粒度管控,支持动态配置,提供多种性能诊断和数据可视化大盘,显著降低可观测性门槛,为 AI-native 应用的稳定运行与高效运维提供坚实的基础。
借助 AI-native 可观测解决方案,阿里云为用户提供开箱即用的覆盖大模型应用、大模型到基础设施的全链路实时观测、告警与诊断能力,帮助企业在复杂的数字化转型过程中更有效地确保资源的高效利用与业务的持续成功。