云原生可观测-全部内容-阿里云开发者社区-阿里云

SelectDB

|

3月前

|

存储人工智能 JSON

|

博文

Litefuse 正式发布：Agent 可观测与效果评估，比 Langfuse 成本低 88%

Litefuse 是一个 Agent 可观测与评估平台，兼容 Langfuse SDK 和 100 多个 AI 生态，并支持 Hermes、OpenClaw、Claude Code 等通用 Agent。存储成本比 Langfuse 降低 88%、简化部署架构、Trace 文本检索效率提升 10 倍，帮助团队以更低成本构建可靠的观测平台。

1332 9 10

1086822487162812

|

8月前

|

人工智能运维监控

|

博文

FinOps for AI 概述

本文探讨生成式AI带来的新型成本挑战，如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控：建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作，并将财务监控与业务成果对齐，推动AI成本管理从“爬”到“跑”的渐进式成熟。

1024 1 1

bubbleMan

|

2月前

|

人工智能自然语言处理监控

|

博文

开源 APM 详细功能对比：SkyWalking vs Databuff

本文对比 SkyWalking 与 Databuff 在服务监控、链路追踪、拓扑、告警及 AI 问数五大核心场景的实操差异，基于双 Demo 真实界面截图与功能表，突出 Databuff 的 OTLP 原生接入、服务关系首屏、瀑布图着色、中文告警直读及自然语言智能问数等优势，助力团队面向 OTel 统一与智能化运维选型。（239字）

228 3 3

zqyi

|

5月前

|

存储人工智能运维

|

博文

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

OpenClaw 是一款个人 AI 助理平台，其原生记忆系统通过系统提示词、会话历史和本地 Markdown 记忆文件三层结构，为 Agent 提供基础的跨会话记忆能力。然而，原生系统在记忆提取维度、更新机制、检索精度和运维成本等方面存在明显局限，难以满足企业级场景的高质量个性化需求。本文介绍如何将 OpenClaw 与阿里云 AgentLoop MemoryStore 集成，以获得更强大的长期记忆能力。AgentLoop MemoryStore 是一款完全托管的企业级 Agent 记忆管理产品，具备多维度记忆提取、智能记忆更新、异步流水线架构和分层检索等特性。

910 4 4

乘云数字DATABUFF

|

8月前

|

机器学习/深度学习人工智能运维

|

博文

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

GenAI和智能体技术的爆发，为IT运维打开了一扇新的大门，一个更具主动性、自治性和协作性的新时代已经来临，这就是AgenticOps（基于智能体的IT运维）。

1860 2 2

阿里云云原生

|

5月前

|

消息中间件人工智能缓存

|

博文

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

本文将聊聊如何用一行命令，给你的 OpenClaw 装上一台 X 光机——让每一次 LLM 调用、每一步工具执行、每一个 Token 的消耗，都从水下浮出水面。

1105 6 8

阿里云云原生

|

8月前

|

存储人工智能关系型数据库

|

博文

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

告别数据库“膨胀”！借助SLS打造高可用生产级的Dify日志场景，通过将工作流日志从PostgreSQL迁移至SLS，实现存储压力降低95%+、成本下降近10倍，并支持实时分析、监控告警与数据闭环，彻底解决高并发下的连接池打满、慢查询频发等痛点，助力AI应用高效稳定运行！

668 4 4

10月前

|

视频

Operation Intelligence：可观测与智能运维（AIOps）

在云原生与 AI 原生架构加速演进的今天，系统复杂性已突破传统运维的认知边界。单纯依赖日志、指标与告警的被动观测模式难以支撑实时决策与快速响应 —— 可观测性正在进化为智能决策与系统自治的核心引擎。本论坛汇聚学术先锋、技术领袖与一线实践者，深入探讨从“被动响应”到“主动认知”、从“看得见”到“看得懂、判得准、控得住”的智能跃迁之路，真正释放 Operation Intelligence 的业务与运维价值。讲师/嘉宾简介释放 AI 研发效能，AI 原生驱动企业架构新范式演进——周琦，阿里云智能集团云原生应用平台负责人《AI 原生应用架构白皮书》重磅发布——周琦，阿里云智能集团云原生应用平台负责人、穆飞，阿里云智能集团资深总监，阿里云研究院负责人、郑立，稳定性保障实验室负责人、魏峻，中国科学院软件研究所研究员，博士生导师，软件工程学科方向带头人，学术学位委员会委员、倪超，浙江大学软件学院副教授《AI 原生应用架构白皮书》解读：加速 AI 应用发生——李艳林，阿里云智能集团资深技术专家云原生进化论：加速 AI 应用构建最佳范式——李国强，阿里云智能集团资深产品专家生成式 AI 在实体店现场经营中的机会与实践——赵振宇，盒马资深技术专家满帮 AI 基建建设现状与架构选型思考——杨兴华，满帮集团产研中心研发总经理对话：AI 原生将如何重塑应用研发范式——杨兴华，满帮集团产研中心研发总经理、郑立，中国信通院云大所云计算部副主任、才振功，浙江大学软件学院副教授、李国强，阿里云智能集团资深产品专家

1330 2 4

7月前

|

视频

应用性能监控（APM）——分布式系统的精准透视

全面解读基于OpenTelemetry实现代码级追踪、服务拓扑与异常捕获，快速定位微服务/Serverless架构下的性能瓶颈与故障根因。讲师/嘉宾简介汪宁｜阿里云智能产品专家

455 0 0

乘云数字DATABUFF

|

10月前

|

运维监控数据可视化

|

博文

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻，探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具，支持多源数据接入与低代码编排，实现日志、指标、链路等数据的高效处理与统一管理，助力企业构建高质量可观测体系。（238字）

548 5 5

1086822487162812

|

8月前

|

存储监控安全

|

博文

FinOps如何管理共享云成本

本页面介绍共享云成本管理，涵盖其重要性、分配方法及各方职责。通过公平、透明的成本分摊，提升财务责任与预算准确性，推动组织优化云支出。

466 0 1

SelectDB

|

5月前

|

SQL 人工智能安全

|

博文

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验

1511 5 6

1086822487162812

|

8月前

|

人工智能监控测试技术

|

博文

如何实践FinOps入门指南

本文系统阐述了FinOps（云财务运营）的四阶段采用路径：研究、提出、准备与启动。通过数据收集、利益相关者沟通、战略提案和团队协作，助力组织实现云成本透明化、优化支出并推动业务价值。适用于希望落地FinOps的个人与团队，提供实用框架与执行指南。

455 1 1

9月前

|

视频

模型 · 实体 · 指标：UModel 多维度探索机制设计与实践

系统讲解 UModel 三大核心浏览组件的定位与实战应用：通过 UModel Explorer 实现模型结构的全局可视化，掌握整体依赖与变更脉络；借助 Entity Explorer 深入业务实体定义，理解字段语义与上下文关系；利用 MetricSet Explorer 快速定位关键业务指标，支撑高效监控与分析。三者协同，构建全链路数据认知体系。讲师/嘉宾简介隰宗正(霜键) ｜高级工程师、王涛(灵亦)｜技术专家

406 0 0

9月前

|

视频

构建运维世界模型之路：UModel 数据建模全景解读

从零构建对 UModel 的系统认知，全面解析其在数据体系中的定位、组成与关键能力。讲师/嘉宾简介张城(元乙)｜高级技术专家

567 1 3

1086822487162812

|

8月前

|

监控 Cloud Native 安全

|

博文

FinOps云成本分配指南

成本分配是FinOps核心实践，通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者，实现成本展示与回收。需跨财务、工程、业务团队协作，建立强制标签策略并推动执行，提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等，成熟实施可显著增强组织云成本管控力。

548 4 4

8月前

|

视频

云监控2.0重磅升级！ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析

在云原生与大规模分布式系统时代，ECS操作系统层的问题往往“看不见、摸不着、难定位”——内存莫名被吃光？IO延迟飙升却找不到源头？Redis超时竟源于cgroup泄漏？传统监控工具束手无策！本次直播，我们将首次深度解读阿里云云监控2.0 ECS洞察中的SysOM系统诊断能力，基于阿里多年双11实战经验打造的一体化OS运维平台，真正实现从“被动救火”到“主动洞察”的转变！讲师/嘉宾简介诗雁｜阿里云操作系统团队技术专家

578 0 0

乘云数字DATABUFF

|

9月前

|

运维监控数据可视化

|

博文

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

深夜告警、业务暴跌、全员背锅？一次支付故障暴露传统监控盲区。我们通过业务观测，将技术指标转化为老板听得懂的“人话”，实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志，而是站着驱动业务增长。

629 9 9

1752192245978413

|

10月前

|

存储 SQL Prometheus

|

博文

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理，涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景，帮助用户掌握PromQL的核心语法与执行逻辑。

1314 10 13

9月前

|

视频

从定位到关联：构建 UModel 数据发现与链路分析的全链路能力

聚焦 UModel 核心查询能力，系统讲解通过元数据查询与实体检索快速定位字段来源、模型定义与业务上下文；借助图查询能力可视化展现模型间依赖关系，揭示调用链路与影响范围。两大能力层层递进，全面提升建模系统的可追溯性与治理效率。讲师/嘉宾简介任建(路遥)｜高级工程师、隰宗正(霜键)｜高级工程师

480 0 0

阿里云云原生

|

12月前

|

视频

2025 AI 原生编程挑战赛·赛题解析

848 0 0

4月前

|

视频

OpenClaw可观测实践：你的龙虾真的受控吗？

1.成本核算与异常预警：Token消耗逐笔拆解到每个模型、每次调用 2.推理链路可视化：每个LLM调用、工具调用、返回结果均完整记录，问题定位有据可查 3.调用来源身份潮源：明确每次请求的发起方与上下文边界，识别每次调用的发起用户与会话，区分正常请求与异常行为 4.合规审计与风险识别：高危命令执行、敏感文件访问、外发请求都有完整会话级记录，出现问题可还原行为链、留存证据讲师/嘉宾简介孙玉梅｜阿里云云原生应用平台技术专家

573 0 0

乘云数字DATABUFF

|

9月前

|

存储运维监控

|

博文

云原生NPM与传统NPM的差异

本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异，聚焦Packet处理，分析二者优劣。随着eBPF等新技术应用，云原生NPM正加速发展，助力高效网络监控与故障定位。

422 1 1

乘云数字DATABUFF

|

10月前

|

SQL 运维

|

博文

【故障定位系列】波动度故障

本文探讨SQL耗时故障的自适应定位方法，针对不同波动程度的故障，提出通过自学习正常区间特征（如方差、标准差）实现异常检测，并结合上下游响应时间比例关系判断根因，辅以实战案例验证定位准确性。

326 2 2

7月前

|

视频

CMS2.0 全景综述：可观测范式升级与智能运维蓝图

剖析云监控2.0的核心理念：从被动告警走向主动洞察。聚焦“统一数据底座 + 场景化分析 + AI驱动闭环”，建立覆盖基础设施、应用、AI、用户与网络的全栈可观测思维。讲师/嘉宾简介夏明｜阿里云智能高级技术专家

543 0 0

7月前

|

视频

网络分析与监控（拨测）——端到端服务可用性透明化保障

深入网络可观测，覆盖 VPC 内部通信、公网拨测、CDN 加速及边缘节点，实时识别延迟抖动、丢包、DNS 异常与路由问题，确保应用依赖链路的稳定与高效。讲师/嘉宾简介俞嵩｜阿里云智能高级研发工程师

299 0 0

7月前

|

视频

云产品监控——多云环境下的统一资源视图

聚焦主流云厂商IaaS/PaaS服务的监控整合，通过标准化采集与统一视图，实现跨账号、跨区域的云资源的健康度、性能与成本一体化管理，有效消除多云环境下的监控盲区。讲师/嘉宾简介少焉｜阿里云智能产品专家

291 0 0

9月前

|

视频

从集成到稳定：UModel API 集成与运维自愈机制详解

深入解析 UModel 的 PaaS API 设计理念与集成实践路径；同时系统梳理高频使用问题与典型报错场景，提升用户独立运维与快速恢复能力。从“如何接”到“出了问题怎么查”，帮助开发者和运维团队构建更可靠、可持续的 UModel 应用体系。讲师/嘉宾简介张鑫(千乘)｜技术专家

234 0 0

7月前

|

视频

用户体验监控（RUM）——真实用户视角的前端可观测

以用户为中心，采集页面加载性能、JavaScript错误、API成功率及会话回放等前端数据，将技术指标与关键业务转化漏斗打通，驱动体验优化与商业增长。讲师/嘉宾简介谢精杰｜阿里云智能产品专家

300 0 0

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

Litefuse 正式发布：Agent 可观测与效果评估，比 Langfuse 成本低 88%

FinOps for AI 概述

开源 APM 详细功能对比：SkyWalking vs Databuff

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

Operation Intelligence：可观测与智能运维（AIOps）

应用性能监控（APM）——分布式系统的精准透视

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

FinOps如何管理共享云成本

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

如何实践FinOps入门指南

模型 · 实体 · 指标：UModel 多维度探索机制设计与实践

构建运维世界模型之路：UModel 数据建模全景解读

FinOps云成本分配指南

云监控2.0重磅升级！ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

图文解析带你精通时序PromQL语法

从定位到关联：构建 UModel 数据发现与链路分析的全链路能力

2025 AI 原生编程挑战赛·赛题解析

OpenClaw可观测实践：你的龙虾真的受控吗？

云原生NPM与传统NPM的差异

【故障定位系列】波动度故障

CMS2.0 全景综述：可观测范式升级与智能运维蓝图

网络分析与监控（拨测）——端到端服务可用性透明化保障

云产品监控——多云环境下的统一资源视图

从集成到稳定：UModel API 集成与运维自愈机制详解

用户体验监控（RUM）——真实用户视角的前端可观测

活跃用户

相关产品

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

Litefuse 正式发布：Agent 可观测与效果评估， 比 Langfuse 成本低 88%

FinOps for AI 概述

开源 APM 详细功能对比：SkyWalking vs Databuff

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

Operation Intelligence：可观测与智能运维（AIOps）

应用性能监控（APM）——分布式系统的精准透视

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

FinOps如何管理共享云成本

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

如何实践FinOps入门指南

模型 · 实体 · 指标：UModel 多维度探索机制设计与实践

构建运维世界模型之路：UModel 数据建模全景解读

FinOps云成本分配指南

云监控2.0重磅升级！ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

图文解析带你精通时序PromQL语法

从定位到关联：构建 UModel 数据发现与链路分析的全链路能力

2025 AI 原生编程挑战赛·赛题解析

OpenClaw可观测实践：你的龙虾真的受控吗？

云原生NPM与传统NPM的差异

【故障定位系列】波动度故障

CMS2.0 全景综述：可观测范式升级与智能运维蓝图

网络分析与监控（拨测）——端到端服务可用性透明化保障

云产品监控——多云环境下的统一资源视图

从集成到稳定：UModel API 集成与运维自愈机制详解

用户体验监控（RUM）——真实用户视角的前端可观测

活跃用户

相关产品

Litefuse 正式发布：Agent 可观测与效果评估，比 Langfuse 成本低 88%