阿里云联合信通院发布《面向LLM应用的可观测性能力要求》

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
可观测监控 Prometheus 版,每月50GB免费额度
注册配置 MSE Nacos/ZooKeeper,182元/月
简介: 随着大模型技术的广泛应用,大语言模型(LLM)在对话系统、检索增强生成(RAG)、智能体(Agent)等场景中展现出无限的想象力与创造力。同时,基于 LLM 以及 AI 生态技术栈构建的应用以及业务场景也如雨后春笋般不断涌现。然而,LLM 应用在生产落地过程中面临着模型不确定性大、架构链路复杂、用户体验难以评估等诸多痛点。如何构建 LLM 应用的全链路可观测性体系以及如何评估可观测性能力是否完善,业界缺乏统一且完整细致的标准。

随着大模型技术的广泛应用,大语言模型(LLM)在对话系统、检索增强生成(RAG)、智能体(Agent)等场景中展现出无限的想象力与创造力。同时,基于 LLM 以及 AI 生态技术栈构建的应用以及业务场景也如雨后春笋般不断涌现。然而,LLM 应用在生产落地过程中面临着模型不确定性大、架构链路复杂、用户体验难以评估等诸多痛点。如何构建 LLM 应用的全链路可观测性体系以及如何评估可观测性能力是否完善,业界缺乏统一且完整细致的标准。



在此背景下,阿里云联合中国信通院及国内头部厂商、各行业建设方,历时数月共同编制《面向 LLM 应用的可观测性能力要求》,以规范和指导 LLM 应用可观测性能力建设实践。该标准面向 LLM 应用在训练、推理过程中的可观测建设工作,以数据采集、建模、存储、应用为主线,对各环节所需能力进行标准化规范。标准于 2025 年 7 月 22 日第十二届可信云大会主论坛正式发布。


面向 LLM 应用的可观测性能力要求


该标准面向云厂商可观测平台、可观测独立厂商产品、可观测建设方案、LLM 应用可观测方案等,标准从数据的全生命周期规范了面向 LLM 应用的可观测性技术要求以及数据模型构建的参考框架,前瞻性提出核心应用场景的能力建设指引。面向LLM应用的可观测性能力要求框架分为数据采集、数据模型、数据存储和数据应用四大部分,数据模型层分为指标体系、日志和链路三个部分,其中指标体系各分层逻辑关系如下:



  • 基础设施层:是 LLM 应用运行的物理或虚拟资源底座,为整个系统提供算力、存储和网络等基础支撑,是所有上层功能实现的前提。(本节对基础设施层的网络、存储、主机、操作系统、系统进程的指标进行规范)
  • 中间件层:指 LLM 应用的中间件,是连接基础设施层与上层模型/应用的技术桥梁,提供标准化工具和接口,简化模型开发、部署和运维的复杂度。(本节对中间件层的 RAG、语义缓存、MCP、向量数据库指标进行规范)
  • 模型层:是 LLM 应用的核心智能载体,包含预训练模型本身及相关的优化与适配组件,决定了应用的“认知能力”。(本节对模型层的模型指标、成本指标、评估指标、多模态评估指标进行规范)
  • 模型服务层:负责将模型层的能力转化为可调用的服务,解决模型从“离线训练”到“在线应用”的工程化问题,确保高效、稳定地响应上层请求。(本节对模型服务层的性能指标、失败指标、计量指标进行规范)
  • 应用层:是 LLM 技术面向终端用户的最终形态,基于模型服务层提供的能力,结合具体场景需求构建的产品或功能,直接解决用户问题。(本节对应用层的性能指标、内容质量、用户体验指标、失败指标进行规范)

“阿里云可观测产品家族已率先构建起完整的大模型可观测工具链,标志着 AI 应用与可观测都已迈进新发展阶段。”阿里云云原生负责人周琦表示,”企业可以高效、灵活地构建大模型可观测体系,更有效地管理与观测 AI 资源与服务,为 AI 创新夯实技术底座。”在这个充满机遇的 AI 时代,企业如能灵活运用 AI 可观测技术,将重塑企业数字化创新的技术路径,为 AI 时代的商业创新提供确定性支撑。

据悉,阿里云已为全球 80 余个国家的百万企业级用户提供高效便捷、安全稳定的可观测服务。


  • 米哈游基于日志服务 SLS 构建完整业务 & 运维可观测体系;
  • 茶百道基于应用实时监控服务 ARMS 快速建立运维观测与响应能力,故障恢复效率提升 50% 以上;
  • 传音控股借助 Prometheus、Grafana 等可观测产品,业务上线效率提高 60%;
  • 极氪基于日志服务 SLS、应用实时监控服务 ARMS 构建完整监控与应急响应机制,告警平均恢复耗时缩短 50%。
相关文章
|
4月前
|
SQL 人工智能 数据挖掘
阿里云可观测 2025 年 6 月产品动态
阿里云可观测 2025 年 6 月产品动态
|
2月前
|
人工智能 运维 监控
让天下没有难查的故障:2025 阿里云 AI 原生编程挑战赛正式启动
本次大赛由阿里云主办,云原生应用平台承办,聚焦 Operation Intelligence 的智能运维(AIOps)赛道,为热爱 AI 技术的开发者提供发挥创意和想象力的舞台,借助 LLM 强大的推理能力与标准化整合的多源可观测数据,找到 AI 应用在智能运维(AIOps)场景上的新方式。
411 31
|
5月前
|
数据采集 人工智能 监控
从 Agent 到模型推理:端到端的可观测性实践
本文探讨了AI领域的最新发展趋势及应用挑战,详细分析了模型、框架与应用场景的进展,并针对如何用好AI、节省资源与确保合规提出了见解。同时,文章深入剖析了AI应用的典型架构,强调实现端到端可观测性的关键步骤,包括全链路追踪与数据平台构建。此外,还介绍了阿里云提供的全栈可观测解决方案,以及Tracing技术的具体实现细节。通过对关键性能指标(如TTFT和TPOT)的监控,优化数据采集与探针性能,解决了Dify等平台的实际问题。最后,阐述了模型质量评估与Token黑洞监控的重要性,并展示了阿里云监控平台的统一观测能力,助力用户全面掌握AI应用表现。
|
2月前
|
数据采集 人工智能 监控
零代码改造!LoongSuite AI 采集套件观测实战
在 AI 时代,随着模型和应用侧的快速演化,对于推理过程,成本和性能显得尤为重要,而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点,并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入,低成本地进行全链路的大模型可观测。
299 44
零代码改造!LoongSuite AI 采集套件观测实战
|
人工智能 监控 数据库
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
基于大语言模型的应用在性能、成本、效果等方面存在一系列实际痛点,本文通过分析 LLM 应用模式以及关注点差异来阐明可观测技术挑战,近期阿里云可观测推出了面向 LLM 应用的可观测解决方案以及最佳实践,一起来了解下吧。
20164 127
LLM 应用可观测性:从 Trace 视角展开的探索与实践之旅
|
8月前
|
人工智能 监控 开发者
详解大模型应用可观测全链路
阿里云可观测解决方案从几个方面来尝试帮助使用 QwQ、Deepseek 的 LLM 应用开发者来满足领域化的可观测述求。
1911 157
详解大模型应用可观测全链路
|
4月前
|
人工智能 安全 Serverless
五年磨一剑:Agent 时代追风不如造风
Serverless 是当前技术领域最有可能演进为 AI Native Infra 的技术架构,函数计算正着力于打造模块化的 Agent Infra 之剑,助力开发者从“生态应用者”进阶为“能力定义者”,最终推动 AI 技术走向开放共享的创新之路。
|
数据采集 监控 数据挖掘
企业级Data Agent: 从数据开始,以数据领先
在数字化转型背景下,数据被视为“新时代的石油”,但多数企业仍面临数据价值难以高效挖掘的困境。文章深入剖析了当前数据分析中存在的“被动响应”模式及其带来的四大挑战,并提出通过Data Agent实现主动智能与数据分析民主化的新路径。Data Agent基于大语言模型和强化学习技术,具备理解、思考与行动能力,能够从“人找数据”转变为“数据找人”,推动数据洞察从专业人员走向全员参与。
|
4月前
|
消息中间件 存储 人工智能
Apache RocketMQ for AI 战略升级,开启 AI MQ 新时代
Apache RocketMQ 顺应AIGC浪潮,针对长时会话、稀缺算力调度及AI Agent协作等挑战,推出专为AI时代打造的消息引擎。通过“会话即主题”的Lite-Topic机制,实现百万级队列动态管理,保障会话连续性与断点续传;结合智能资源调度能力,如定速消费与优先级队列,提升算力利用率与服务公平性;同时构建高效异步通信枢纽,支撑Agent-to-Agent及AI工作流的非阻塞协同。已在阿里集团与阿里云多个AI产品中大规模验证,助力开发者构建稳定、高效、可扩展的AI应用基础设施。
|
人工智能 缓存 NoSQL
【深度】企业 AI 落地实践(四):如何构建端到端的 AI 应用观测体系
本文探讨了AI应用在实际落地过程中面临的三大核心问题:如何高效使用AI模型、控制成本以及保障输出质量。文章详细分析了AI应用的典型架构,并提出通过全栈可观测体系实现从用户端到模型推理层的端到端监控与诊断。结合阿里云的实践经验,介绍了基于OpenTelemetry的Trace全链路追踪、关键性能指标(如TTFT、TPOT)采集、模型质量评估与MCP工具调用观测等技术手段,帮助企业在生产环境中实现AI应用的稳定、高效运行。同时,针对Dify等低代码平台的应用部署与优化提供了具体建议,助力企业构建可扩展、可观测的AI应用体系。