云原生可观测
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。
OpenClaw可观测实践:你的龙虾真的受控吗?
1.成本核算与异常预警:Token消耗逐笔拆解到每个模型、每次调用 2.推理链路可视化:每个LLM调用、工具调用、返回结果均完整记录,问题定位有据可查 3.调用来源身份潮源:明确每次请求的发起方与上下文边界,识别每次调用的发起用户与会 话,区分正常请求与异常行为 4.合规审计与风险识别:高危命令执行、敏感文件访问、外发请求都有完整会话级记录,出 现问题可还原行为链、留存证据 讲师/嘉宾简介 孙玉梅|阿里云云原生应用平台技术专家
为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案
OpenClaw 是一款个人 AI 助理平台,其原生记忆系统通过系统提示词、会话历史和本地 Markdown 记忆文件三层结构,为 Agent 提供基础的跨会话记忆能力。然而,原生系统在记忆提取维度、更新机制、检索精度和运维成本等方面存在明显局限,难以满足企业级场景的高质量个性化需求。 本文介绍如何将 OpenClaw 与阿里云 AgentLoop MemoryStore 集成,以获得更强大的长期记忆能力。AgentLoop MemoryStore 是一款完全托管的企业级 Agent 记忆管理产品,具备多维度记忆提取、智能记忆更新、异步流水线架构和分层检索等特性。
我们用 AI Observe Stack 观测了 OpenClaw,发现 AI Agent 背后的这些隐患
本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验
AIOps已逝,欢迎进入AgenticOps(运维智能体)时代
GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。
一行命令,给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测,让养虾更经济更安全
本文将聊聊如何用一行命令,给你的 OpenClaw 装上一台 X 光机——让每一次 LLM 调用、每一步工具执行、每一个 Token 的消耗,都从水下浮出水面。
Operation Intelligence:可观测与智能运维(AIOps)
在云原生与 AI 原生架构加速演进的今天,系统复杂性已突破传统运维的认知边界。单纯依赖日志、指标与告警的被动观测模式难以支撑实时决策与快速响应 —— 可观测性正在进化为智能决策与系统自治的核心引擎。本论坛汇聚学术先锋、技术领袖与一线实践者,深入探讨从“被动响应”到“主动认知”、从“看得见”到“看得懂、判得准、控得住”的智能跃迁之路,真正释放 Operation Intelligence 的业务与运维价值。 讲师/嘉宾简介 释放 AI 研发效能,AI 原生驱动企业架构新范式演进——周琦,阿里云智能集团云原生应用平台负责人 《AI 原生应用架构白皮书》重磅发布——周琦,阿里云智能集团云原生应用平台负责人、穆飞,阿里云智能集团资深总监,阿里云研究院负责人、郑立,稳定性保障实验室负责人、魏峻,中国科学院软件研究所研究员,博士生导师,软件工程学科方向带头人,学术学位委员会委员、倪超,浙江大学软件学院副教授 《AI 原生应用架构白皮书》 解读:加速 AI 应用发生——李艳林,阿里云智能集团资深技术专家 云原生进化论:加速 AI 应用构建最佳范式——李国强,阿里云智能集团资深产品专家 生成式 AI 在实体店现场经营中的机会与实践——赵振宇,盒马资深技术专家 满帮 AI 基建建设现状与架构选型思考——杨兴华,满帮集团产研中心研发总经理 对话:AI 原生将如何重塑应用研发范式——杨兴华,满帮集团产研中心研发总经理、郑立,中国信通院云大所云计算部副主任、才振功,浙江大学软件学院副教授、李国强,阿里云智能集团资深产品专家
FinOps for AI 概述
本文探讨生成式AI带来的新型成本挑战,如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控:建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作,并将财务监控与业务成果对齐,推动AI成本管理从“爬”到“跑”的渐进式成熟。
Spring AI Alibaba 可观测原理与实践
作为当前炙手可热的 Java AI Agent 开发框架,Spring AI Alibaba 在提示词托管、上下文工程及预置 Agent 实现等领域展现出显著优势。在 Agent 从概念验证迈向生产落地的过程中,可观测性正成为开发者所关注的焦点。本次分享将深入解析 Spring AI Alibaba 框架原生的可观测性实现机制,并演示如何通过 LoongSuite Java Agent 无缝集成,快速构建和使用覆盖 Agent 全链路的可观测性。 **讲师:**张铭辉|阿里云研发工程师
告别数据库“膨胀”:Dify x SLS 构建高可用生产级 AI 架构
告别数据库“膨胀”!借助SLS打造高可用生产级的Dify日志场景,通过将工作流日志从PostgreSQL迁移至SLS,实现存储压力降低95%+、成本下降近10倍,并支持实时分析、监控告警与数据闭环,彻底解决高并发下的连接池打满、慢查询频发等痛点,助力AI应用高效稳定运行!
FinOps云成本分配指南
成本分配是FinOps核心实践,通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者,实现成本展示与回收。需跨财务、工程、业务团队协作,建立强制标签策略并推动执行,提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等,成熟实施可显著增强组织云成本管控力。
如何实践FinOps入门指南
本文系统阐述了FinOps(云财务运营)的四阶段采用路径:研究、提出、准备与启动。通过数据收集、利益相关者沟通、战略提案和团队协作,助力组织实现云成本透明化、优化支出并推动业务价值。适用于希望落地FinOps的个人与团队,提供实用框架与执行指南。
告别传统Log追踪!GOAT如何用HTTP接口重塑代码监控
本文介绍了GOAT(Golang Application Tracing)工具的使用方法,通过一个Echo问答服务实例,详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景,助力Go项目质量保障与平稳发布。工具以轻量高效的特点,为开发团队提供数据支持,优化决策流程。
零代码改造!LoongSuite AI 采集套件观测实战
在 AI 时代,随着模型和应用侧的快速演化,对于推理过程,成本和性能显得尤为重要,而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点,并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入,低成本地进行全链路的大模型可观测。 讲师:刘子明|阿里云研发工程师
别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香
深夜告警、业务暴跌、全员背锅?一次支付故障暴露传统监控盲区。我们通过业务观测,将技术指标转化为老板听得懂的“人话”,实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志,而是站着驱动业务增长。
模型 · 实体 · 指标:UModel 多维度探索机制设计与实践
系统讲解 UModel 三大核心浏览组件的定位与实战应用:通过 UModel Explorer 实现模型结构的全局可视化,掌握整体依赖与变更脉络;借助 Entity Explorer 深入业务实体定义,理解字段语义与上下文关系;利用 MetricSet Explorer 快速定位关键业务指标,支撑高效监控与分析。三者协同,构建全链路数据认知体系。 讲师/嘉宾简介 隰宗正(霜键) |高级工程师、 王涛(灵亦)|技术专家
图文解析带你精通时序PromQL语法
[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。
日志采集效能跃迁:iLogtail 到 LoongCollector 的全面升级
LoongCollector 在日志场景中实现了全面的重磅升级,从功能、性能、稳定性等各个方面均进行了深度优化和提升,本文我们将对 LoongCollector 的升级进行详细介绍。
应用性能监控(APM)——分布式系统的精准透视
全面解读基于OpenTelemetry实现代码级追踪、服务拓扑与异常捕获,快速定位微服务/Serverless架构下的性能瓶颈与故障根因。 讲师/嘉宾简介 汪宁|阿里云智能产品专家
云原生NPM与传统NPM的差异
本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异,聚焦Packet处理,分析二者优劣。随着eBPF等新技术应用,云原生NPM正加速发展,助力高效网络监控与故障定位。
CMS2.0 全景综述:可观测范式升级与智能运维蓝图
剖析云监控2.0的核心理念:从被动告警走向主动洞察。聚焦“统一数据底座 + 场景化分析 + AI驱动闭环”,建立覆盖基础设施、应用、AI、用户与网络的全栈可观测思维。 讲师/嘉宾简介 夏明|阿里云智能高级技术专家
云监控2.0重磅升级!ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析
在云原生与大规模分布式系统时代,ECS操作系统层的问题往往“看不见、摸不着、难定位”——内存莫名被吃光?IO延迟飙升却找不到源头?Redis超时竟源于cgroup泄漏?传统监控工具束手无策! 本次直播,我们将首次深度解读 阿里云云监控2.0 ECS洞察中的SysOM系统诊断能力,基于阿里多年双11实战经验打造的一体化OS运维平台,真正实现从“被动救火”到“主动洞察”的转变! 讲师/嘉宾简介 诗雁|阿里云操作系统团队技术专家
从定位到关联:构建 UModel 数据发现与链路分析的全链路能力
聚焦 UModel 核心查询能力,系统讲解通过元数据查询与实体检索快速定位字段来源、模型定义与业务上下文;借助图查询能力可视化展现模型间依赖关系,揭示调用链路与影响范围。两大能力层层递进,全面提升建模系统的可追溯性与治理效率。 讲师/嘉宾简介 任建(路遥)|高级工程师、隰宗正(霜键)|高级工程师
从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起
以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)
云产品监控——多云环境下的统一资源视图
聚焦主流云厂商IaaS/PaaS服务的监控整合,通过标准化采集与统一视图,实现跨账号、跨区域的云资源的健康度、性能与成本一体化管理,有效消除多云环境下的监控盲区。 讲师/嘉宾简介 少焉|阿里云智能产品专家
从集成到稳定:UModel API 集成与运维自愈机制详解
深入解析 UModel 的 PaaS API 设计理念与集成实践路径;同时系统梳理高频使用问题与典型报错场景,提升用户独立运维与快速恢复能力。从“如何接”到“出了问题怎么查”,帮助开发者和运维团队构建更可靠、可持续的 UModel 应用体系。 讲师/嘉宾简介 张鑫(千乘)|技术专家
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文总结了日志管理中的六大反模式及优化建议,涵盖日志轮转、存储选择、并发写入等常见问题,帮助提升日志采集的完整性与系统可观测性,适用于运维及开发人员优化日志管理策略。
【故障定位系列】波动度故障
本文探讨SQL耗时故障的自适应定位方法,针对不同波动程度的故障,提出通过自学习正常区间特征(如方差、标准差)实现异常检测,并结合上下游响应时间比例关系判断根因,辅以实战案例验证定位准确性。
网络分析与监控(拨测)——端到端服务可用性透明化保障
深入网络可观测,覆盖 VPC 内部通信、公网拨测、CDN 加速及边缘节点,实时识别延迟抖动、丢包、DNS 异常与路由问题,确保应用依赖链路的稳定与高效。 讲师/嘉宾简介 俞嵩|阿里云智能高级研发工程师
用户体验监控(RUM)——真实用户视角的前端可观测
以用户为中心,采集页面加载性能、JavaScript错误、API成功率及会话回放等前端数据,将技术指标与关键业务转化漏斗打通,驱动体验优化与商业增长。 讲师/嘉宾简介 谢精杰|阿里云智能产品专家