云原生可观测
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。
我们用 AI Observe Stack 观测了 OpenClaw,发现 AI Agent 背后的这些隐患
本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验
应用性能监控(APM)——分布式系统的精准透视
全面解读基于OpenTelemetry实现代码级追踪、服务拓扑与异常捕获,快速定位微服务/Serverless架构下的性能瓶颈与故障根因。 讲师/嘉宾简介 汪宁|阿里云智能产品专家
CMS2.0 全景综述:可观测范式升级与智能运维蓝图
剖析云监控2.0的核心理念:从被动告警走向主动洞察。聚焦“统一数据底座 + 场景化分析 + AI驱动闭环”,建立覆盖基础设施、应用、AI、用户与网络的全栈可观测思维。 讲师/嘉宾简介 夏明|阿里云智能高级技术专家
云产品监控——多云环境下的统一资源视图
聚焦主流云厂商IaaS/PaaS服务的监控整合,通过标准化采集与统一视图,实现跨账号、跨区域的云资源的健康度、性能与成本一体化管理,有效消除多云环境下的监控盲区。 讲师/嘉宾简介 少焉|阿里云智能产品专家
FinOps云成本分配指南
成本分配是FinOps核心实践,通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者,实现成本展示与回收。需跨财务、工程、业务团队协作,建立强制标签策略并推动执行,提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等,成熟实施可显著增强组织云成本管控力。
告别数据库“膨胀”:Dify x SLS 构建高可用生产级 AI 架构
告别数据库“膨胀”!借助SLS打造高可用生产级的Dify日志场景,通过将工作流日志从PostgreSQL迁移至SLS,实现存储压力降低95%+、成本下降近10倍,并支持实时分析、监控告警与数据闭环,彻底解决高并发下的连接池打满、慢查询频发等痛点,助力AI应用高效稳定运行!
如何实践FinOps入门指南
本文系统阐述了FinOps(云财务运营)的四阶段采用路径:研究、提出、准备与启动。通过数据收集、利益相关者沟通、战略提案和团队协作,助力组织实现云成本透明化、优化支出并推动业务价值。适用于希望落地FinOps的个人与团队,提供实用框架与执行指南。
FinOps for AI 概述
本文探讨生成式AI带来的新型成本挑战,如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控:建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作,并将财务监控与业务成果对齐,推动AI成本管理从“爬”到“跑”的渐进式成熟。
云监控2.0重磅升级!ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析
在云原生与大规模分布式系统时代,ECS操作系统层的问题往往“看不见、摸不着、难定位”——内存莫名被吃光?IO延迟飙升却找不到源头?Redis超时竟源于cgroup泄漏?传统监控工具束手无策! 本次直播,我们将首次深度解读 阿里云云监控2.0 ECS洞察中的SysOM系统诊断能力,基于阿里多年双11实战经验打造的一体化OS运维平台,真正实现从“被动救火”到“主动洞察”的转变! 讲师/嘉宾简介 诗雁|阿里云操作系统团队技术专家
AIOps已逝,欢迎进入AgenticOps(运维智能体)时代
GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。
从集成到稳定:UModel API 集成与运维自愈机制详解
深入解析 UModel 的 PaaS API 设计理念与集成实践路径;同时系统梳理高频使用问题与典型报错场景,提升用户独立运维与快速恢复能力。从“如何接”到“出了问题怎么查”,帮助开发者和运维团队构建更可靠、可持续的 UModel 应用体系。 讲师/嘉宾简介 张鑫(千乘)|技术专家
模型 · 实体 · 指标:UModel 多维度探索机制设计与实践
系统讲解 UModel 三大核心浏览组件的定位与实战应用:通过 UModel Explorer 实现模型结构的全局可视化,掌握整体依赖与变更脉络;借助 Entity Explorer 深入业务实体定义,理解字段语义与上下文关系;利用 MetricSet Explorer 快速定位关键业务指标,支撑高效监控与分析。三者协同,构建全链路数据认知体系。 讲师/嘉宾简介 隰宗正(霜键) |高级工程师、 王涛(灵亦)|技术专家
从定位到关联:构建 UModel 数据发现与链路分析的全链路能力
聚焦 UModel 核心查询能力,系统讲解通过元数据查询与实体检索快速定位字段来源、模型定义与业务上下文;借助图查询能力可视化展现模型间依赖关系,揭示调用链路与影响范围。两大能力层层递进,全面提升建模系统的可追溯性与治理效率。 讲师/嘉宾简介 任建(路遥)|高级工程师、隰宗正(霜键)|高级工程师
别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香
深夜告警、业务暴跌、全员背锅?一次支付故障暴露传统监控盲区。我们通过业务观测,将技术指标转化为老板听得懂的“人话”,实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志,而是站着驱动业务增长。
云原生NPM与传统NPM的差异
本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异,聚焦Packet处理,分析二者优劣。随着eBPF等新技术应用,云原生NPM正加速发展,助力高效网络监控与故障定位。
【故障定位系列】波动度故障
本文探讨SQL耗时故障的自适应定位方法,针对不同波动程度的故障,提出通过自学习正常区间特征(如方差、标准差)实现异常检测,并结合上下游响应时间比例关系判断根因,辅以实战案例验证定位准确性。
从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起
以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)
Operation Intelligence:可观测与智能运维(AIOps)
在云原生与 AI 原生架构加速演进的今天,系统复杂性已突破传统运维的认知边界。单纯依赖日志、指标与告警的被动观测模式难以支撑实时决策与快速响应 —— 可观测性正在进化为智能决策与系统自治的核心引擎。本论坛汇聚学术先锋、技术领袖与一线实践者,深入探讨从“被动响应”到“主动认知”、从“看得见”到“看得懂、判得准、控得住”的智能跃迁之路,真正释放 Operation Intelligence 的业务与运维价值。 讲师/嘉宾简介 释放 AI 研发效能,AI 原生驱动企业架构新范式演进——周琦,阿里云智能集团云原生应用平台负责人 《AI 原生应用架构白皮书》重磅发布——周琦,阿里云智能集团云原生应用平台负责人、穆飞,阿里云智能集团资深总监,阿里云研究院负责人、郑立,稳定性保障实验室负责人、魏峻,中国科学院软件研究所研究员,博士生导师,软件工程学科方向带头人,学术学位委员会委员、倪超,浙江大学软件学院副教授 《AI 原生应用架构白皮书》 解读:加速 AI 应用发生——李艳林,阿里云智能集团资深技术专家 云原生进化论:加速 AI 应用构建最佳范式——李国强,阿里云智能集团资深产品专家 生成式 AI 在实体店现场经营中的机会与实践——赵振宇,盒马资深技术专家 满帮 AI 基建建设现状与架构选型思考——杨兴华,满帮集团产研中心研发总经理 对话:AI 原生将如何重塑应用研发范式——杨兴华,满帮集团产研中心研发总经理、郑立,中国信通院云大所云计算部副主任、才振功,浙江大学软件学院副教授、李国强,阿里云智能集团资深产品专家
图文解析带你精通时序PromQL语法
[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。
零代码改造!LoongSuite AI 采集套件观测实战
在 AI 时代,随着模型和应用侧的快速演化,对于推理过程,成本和性能显得尤为重要,而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点,并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入,低成本地进行全链路的大模型可观测。 讲师:刘子明|阿里云研发工程师
Spring AI Alibaba 可观测原理与实践
作为当前炙手可热的 Java AI Agent 开发框架,Spring AI Alibaba 在提示词托管、上下文工程及预置 Agent 实现等领域展现出显著优势。在 Agent 从概念验证迈向生产落地的过程中,可观测性正成为开发者所关注的焦点。本次分享将深入解析 Spring AI Alibaba 框架原生的可观测性实现机制,并演示如何通过 LoongSuite Java Agent 无缝集成,快速构建和使用覆盖 Agent 全链路的可观测性。 **讲师:**张铭辉|阿里云研发工程师
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文总结了日志管理中的六大反模式及优化建议,涵盖日志轮转、存储选择、并发写入等常见问题,帮助提升日志采集的完整性与系统可观测性,适用于运维及开发人员优化日志管理策略。
日志采集效能跃迁:iLogtail 到 LoongCollector 的全面升级
LoongCollector 在日志场景中实现了全面的重磅升级,从功能、性能、稳定性等各个方面均进行了深度优化和提升,本文我们将对 LoongCollector 的升级进行详细介绍。
告别传统Log追踪!GOAT如何用HTTP接口重塑代码监控
本文介绍了GOAT(Golang Application Tracing)工具的使用方法,通过一个Echo问答服务实例,详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景,助力Go项目质量保障与平稳发布。工具以轻量高效的特点,为开发团队提供数据支持,优化决策流程。
无感改造,完美监控:Docker 多阶段构建 Go 应用无侵入观测
本文将介绍一种基于 Docker 多阶段构建的无侵入 Golang 应用观测方法,通过此方法用户无需对 Golang 应用源代码或者编译指令做任何改造,即可零成本为 Golang 应用注入可观测能力。
MCP Server 开发实战 | 大模型无缝对接 Grafana
以 AI 世界的“USB-C”标准接口——MCP(Model Context Protocol)为例,演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接,让智能交互更加高效、直观。
不断突破极致:SPL新版数据加工能力焕新登场
SPL 算子不仅完成了旧版 DSL 加工向更强大语法和算子形式的过渡,更将性能调优和场景适配做到了极致,解锁了时序预测和日志分析的更多可能性。作为重要的基础设施模块,SPL 加工能力将持续优化演进。未来的规划将继续聚焦通用性、性能与产品能力,为用户提供更加强大、灵活的技术支持。
GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩
阿里巴巴是 GraalVM 全球顾问委员会的唯一中国代表,阿里云程序语言与编译器团队和可观测团队合作实现了 GraalVM 应用的无侵入可观测能力,并在 ARMS 平台上线了该功能。目前在 GraalVM 24 中发布的是支持 Java agent 的第一步,其余能力将在 GraalVM 的后续版本中陆续发布。
当实时消费遇到 SPL:让数据处理更高效、简单
SLS 对实时消费进行了功能升级,推出了 基于 SPL 的规则消费功能。在实时消费过程中,用户只需通过简单的 SPL 配置即可完成服务端的数据清洗和预处理操作。通过SPL消费可以将客户端复杂的业务逻辑“左移”到服务端,从而大幅降低了客户端的复杂性和计算开销。
SLS 重磅升级:超大规模数据实现完全精确分析
SLS 全新推出的「SQL 完全精确」模式,通过“限”与“换”的策略切换,在快速分析与精确计算之间实现平衡,满足用户对于超大数据规模分析结果精确的刚性需求。标志着其在超大规模日志数据分析领域再次迈出了重要的一步。
从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防
探讨了 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。
高效定位 Go 应用问题:Go 可观测性功能深度解析
为进一步赋能用户在复杂场景下快速定位与解决问题,我们结合近期发布的一系列全新功能,精心梳理了一套从接入到问题发现、再到问题排查与精准定位的最佳实践指南。
从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防
本文将探讨 SLS 中增强数据安全的几种方式:权限精细化管控有效减少了潜在安全风险;接入层脱敏技术阻止敏感数据落库,提升了隐私保护;StoreView 字段集控制通过限制查询数据范围,降低数据泄露损害。智能监控系统提供实时监测,快速识别并阻断异常拖库行为,为企业提供了迅速响应和抵御威胁的能力。
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。
Grafana Loki,轻量级日志系统
本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统,具备高可用性和多租户支持,专注于日志而非指标,通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程,并提供了快速搭建指南,包括准备步骤、部署命令及验证方法。此外,还展示了如何使用Grafana查看日志,以及一些基本的LogQL查询示例。最后,作者探讨了Loki架构的独特之处,提出了“巨型单体模块化”的概念,即一个应用既可单体部署也可分布式部署,整体协同实现全部功能。
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
构建超大带宽、超高性能及稳定可观测的全球互联网络
本次课程聚焦构建超大带宽、超高性能及稳定可观测的全球互联网络。首先介绍全球互联网络的功能与应用场景,涵盖云企业网、转发路由器等产品。接着探讨AI时代下全球互联网络面临的挑战,如大规模带宽需求、超低时延、极致稳定性和全面可观测性,并分享相应的解决方案,包括升级转发路由器、基于时延的流量调度和增强网络稳定性。最后宣布降价措施,降低数据与算力连接成本,助力企业全球化发展。
助力企业高效构建安全、可观测的云上数据中心
本次课程聚焦于助力企业高效构建安全、可观测的云上数据中心,涵盖三大方面:1) 数据中心网络面临的挑战,包括VPC、NAT网关和私网连接等产品的功能与挑战;2) 数据中心网络产品重磅发布,涉及安全设计建议、容灾能力提升及深度可观测能力的增强;3) 用户体验升级,通过VPC IPAM实现高效的网络地址管理和简化的产品体验。整体旨在为企业提供更安全、稳定、高效的云上解决方案。
众览全局,企业级云监控助力构建统一云产品可观测
企业上云已成为共识,但在合理使用和管理云资源方面仍面临诸多挑战。富莱瑞调研显示79%的企业缺乏经验。阿里云2023年推出云监控2.0,通过统一接入、关联分析、数据探索等六大升级,帮助企业应对数据孤岛、关联分析困难、灵活性不足等问题。云监控2.0还引入了CloudLens和AI大模型技术,提供更深入的云产品可观测能力,提升运维效率。实际案例表明,通过建设统一可观测平台,企业的故障排查时间和运营成本显著降低。
端到端的ECS可观测性方案,助力云上业务安全稳定
本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。
AI + 可观测最佳实践:让业务从“看见”到“洞察”
本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分:一是监控、观测与洞察的区别及挑战,强调了数据整合和语义对齐的重要性;二是AI与计算如何重塑可观测性,通过UModel数字图谱和多模态存储分析架构实现数据联通;三是最佳实践与未来展望,展示了阿里云AI Stack可观测解决方案的应用案例,并总结了可观测性的四个发展阶段,最终愿景是借助AI力量让每个人成为多领域的专家。