云原生可观测-最新-阿里云开发者社区-阿里云

SelectDB

|

4天前

|

SQL 人工智能安全

|

博文

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验

452 3 3

2月前

|

视频

应用性能监控（APM）——分布式系统的精准透视

全面解读基于OpenTelemetry实现代码级追踪、服务拓扑与异常捕获，快速定位微服务/Serverless架构下的性能瓶颈与故障根因。讲师/嘉宾简介汪宁｜阿里云智能产品专家

272 0 0

2月前

|

视频

CMS2.0 全景综述：可观测范式升级与智能运维蓝图

剖析云监控2.0的核心理念：从被动告警走向主动洞察。聚焦“统一数据底座 + 场景化分析 + AI驱动闭环”，建立覆盖基础设施、应用、AI、用户与网络的全栈可观测思维。讲师/嘉宾简介夏明｜阿里云智能高级技术专家

359 0 0

2月前

|

视频

云产品监控——多云环境下的统一资源视图

聚焦主流云厂商IaaS/PaaS服务的监控整合，通过标准化采集与统一视图，实现跨账号、跨区域的云资源的健康度、性能与成本一体化管理，有效消除多云环境下的监控盲区。讲师/嘉宾简介少焉｜阿里云智能产品专家

145 0 0

1086822487162812

|

3月前

|

监控 Cloud Native 安全

|

博文

FinOps云成本分配指南

成本分配是FinOps核心实践，通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者，实现成本展示与回收。需跨财务、工程、业务团队协作，建立强制标签策略并推动执行，提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等，成熟实施可显著增强组织云成本管控力。

205 4 4

阿里云云原生

|

3月前

|

存储人工智能关系型数据库

|

博文

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

告别数据库“膨胀”！借助SLS打造高可用生产级的Dify日志场景，通过将工作流日志从PostgreSQL迁移至SLS，实现存储压力降低95%+、成本下降近10倍，并支持实时分析、监控告警与数据闭环，彻底解决高并发下的连接池打满、慢查询频发等痛点，助力AI应用高效稳定运行！

334 3 3

1086822487162812

|

3月前

|

存储监控安全

|

博文

FinOps如何管理共享云成本

本页面介绍共享云成本管理，涵盖其重要性、分配方法及各方职责。通过公平、透明的成本分摊，提升财务责任与预算准确性，推动组织优化云支出。

159 0 1

1086822487162812

|

3月前

|

人工智能监控测试技术

|

博文

如何实践FinOps入门指南

本文系统阐述了FinOps（云财务运营）的四阶段采用路径：研究、提出、准备与启动。通过数据收集、利益相关者沟通、战略提案和团队协作，助力组织实现云成本透明化、优化支出并推动业务价值。适用于希望落地FinOps的个人与团队，提供实用框架与执行指南。

217 1 1

1086822487162812

|

3月前

|

人工智能运维监控

|

博文

FinOps for AI 概述

本文探讨生成式AI带来的新型成本挑战，如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控：建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作，并将财务监控与业务成果对齐，推动AI成本管理从“爬”到“跑”的渐进式成熟。

243 1 1

3月前

|

视频

云监控2.0重磅升级！ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析

在云原生与大规模分布式系统时代，ECS操作系统层的问题往往“看不见、摸不着、难定位”——内存莫名被吃光？IO延迟飙升却找不到源头？Redis超时竟源于cgroup泄漏？传统监控工具束手无策！本次直播，我们将首次深度解读阿里云云监控2.0 ECS洞察中的SysOM系统诊断能力，基于阿里多年双11实战经验打造的一体化OS运维平台，真正实现从“被动救火”到“主动洞察”的转变！讲师/嘉宾简介诗雁｜阿里云操作系统团队技术专家

452 0 0

乘云数字DATABUFF

|

3月前

|

机器学习/深度学习人工智能运维

|

博文

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

GenAI和智能体技术的爆发，为IT运维打开了一扇新的大门，一个更具主动性、自治性和协作性的新时代已经来临，这就是AgenticOps（基于智能体的IT运维）。

830 2 2

4月前

|

视频

从集成到稳定：UModel API 集成与运维自愈机制详解

深入解析 UModel 的 PaaS API 设计理念与集成实践路径；同时系统梳理高频使用问题与典型报错场景，提升用户独立运维与快速恢复能力。从“如何接”到“出了问题怎么查”，帮助开发者和运维团队构建更可靠、可持续的 UModel 应用体系。讲师/嘉宾简介张鑫(千乘)｜技术专家

123 0 0

4月前

|

视频

模型 · 实体 · 指标：UModel 多维度探索机制设计与实践

系统讲解 UModel 三大核心浏览组件的定位与实战应用：通过 UModel Explorer 实现模型结构的全局可视化，掌握整体依赖与变更脉络；借助 Entity Explorer 深入业务实体定义，理解字段语义与上下文关系；利用 MetricSet Explorer 快速定位关键业务指标，支撑高效监控与分析。三者协同，构建全链路数据认知体系。讲师/嘉宾简介隰宗正(霜键) ｜高级工程师、王涛(灵亦)｜技术专家

227 0 0

4月前

|

视频

从定位到关联：构建 UModel 数据发现与链路分析的全链路能力

聚焦 UModel 核心查询能力，系统讲解通过元数据查询与实体检索快速定位字段来源、模型定义与业务上下文；借助图查询能力可视化展现模型间依赖关系，揭示调用链路与影响范围。两大能力层层递进，全面提升建模系统的可追溯性与治理效率。讲师/嘉宾简介任建(路遥)｜高级工程师、隰宗正(霜键)｜高级工程师

246 0 0

4月前

|

视频

构建运维世界模型之路：UModel 数据建模全景解读

从零构建对 UModel 的系统认知，全面解析其在数据体系中的定位、组成与关键能力。讲师/嘉宾简介张城(元乙)｜高级技术专家

300 1 2

乘云数字DATABUFF

|

4月前

|

运维监控数据可视化

|

博文

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

深夜告警、业务暴跌、全员背锅？一次支付故障暴露传统监控盲区。我们通过业务观测，将技术指标转化为老板听得懂的“人话”，实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志，而是站着驱动业务增长。

307 9 9

乘云数字DATABUFF

|

4月前

|

存储运维监控

|

博文

云原生NPM与传统NPM的差异

本文对比传统NPM与云原生NPM在部署、流量采集、资源影响等方面的差异，聚焦Packet处理，分析二者优劣。随着eBPF等新技术应用，云原生NPM正加速发展，助力高效网络监控与故障定位。

274 1 1

乘云数字DATABUFF

|

5月前

|

SQL 运维

|

博文

【故障定位系列】波动度故障

本文探讨SQL耗时故障的自适应定位方法，针对不同波动程度的故障，提出通过自学习正常区间特征（如方差、标准差）实现异常检测，并结合上下游响应时间比例关系判断根因，辅以实战案例验证定位准确性。

212 1 1

乘云数字DATABUFF

|

5月前

|

运维监控数据可视化

|

博文

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻，探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具，支持多源数据接入与低代码编排，实现日志、指标、链路等数据的高效处理与统一管理，助力企业构建高质量可观测体系。（238字）

315 4 4

5月前

|

视频

Operation Intelligence：可观测与智能运维（AIOps）

在云原生与 AI 原生架构加速演进的今天，系统复杂性已突破传统运维的认知边界。单纯依赖日志、指标与告警的被动观测模式难以支撑实时决策与快速响应 —— 可观测性正在进化为智能决策与系统自治的核心引擎。本论坛汇聚学术先锋、技术领袖与一线实践者，深入探讨从“被动响应”到“主动认知”、从“看得见”到“看得懂、判得准、控得住”的智能跃迁之路，真正释放 Operation Intelligence 的业务与运维价值。讲师/嘉宾简介释放 AI 研发效能，AI 原生驱动企业架构新范式演进——周琦，阿里云智能集团云原生应用平台负责人《AI 原生应用架构白皮书》重磅发布——周琦，阿里云智能集团云原生应用平台负责人、穆飞，阿里云智能集团资深总监，阿里云研究院负责人、郑立，稳定性保障实验室负责人、魏峻，中国科学院软件研究所研究员，博士生导师，软件工程学科方向带头人，学术学位委员会委员、倪超，浙江大学软件学院副教授《AI 原生应用架构白皮书》解读：加速 AI 应用发生——李艳林，阿里云智能集团资深技术专家云原生进化论：加速 AI 应用构建最佳范式——李国强，阿里云智能集团资深产品专家生成式 AI 在实体店现场经营中的机会与实践——赵振宇，盒马资深技术专家满帮 AI 基建建设现状与架构选型思考——杨兴华，满帮集团产研中心研发总经理对话：AI 原生将如何重塑应用研发范式——杨兴华，满帮集团产研中心研发总经理、郑立，中国信通院云大所云计算部副主任、才振功，浙江大学软件学院副教授、李国强，阿里云智能集团资深产品专家

682 1 1

1752192245978413

|

5月前

|

存储 SQL Prometheus

|

博文

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理，涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景，帮助用户掌握PromQL的核心语法与执行逻辑。

997 10 13

阿里云云原生

|

7月前

|

视频

2025 AI 原生编程挑战赛·赛题解析

619 0 0

阿里云云原生

|

8月前

|

SQL 人工智能数据挖掘

|

博文

阿里云可观测 2025 年 6 月产品动态

354 1 1

阿里云云原生

|

8月前

|

人工智能 Prometheus 监控

|

博文

阿里云可观测 2025 年 4 月产品动态

219 1 1

8月前

|

视频

零代码改造！LoongSuite AI 采集套件观测实战

在 AI 时代，随着模型和应用侧的快速演化，对于推理过程，成本和性能显得尤为重要，而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点，并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入，低成本地进行全链路的大模型可观测。讲师：刘子明｜阿里云研发工程师

534 0 0

8月前

|

视频

Spring AI Alibaba 可观测原理与实践

作为当前炙手可热的 Java AI Agent 开发框架，Spring AI Alibaba 在提示词托管、上下文工程及预置 Agent 实现等领域展现出显著优势。在 Agent 从概念验证迈向生产落地的过程中，可观测性正成为开发者所关注的焦点。本次分享将深入解析 Spring AI Alibaba 框架原生的可观测性实现机制，并演示如何通过 LoongSuite Java Agent 无缝集成，快速构建和使用覆盖 Agent 全链路的可观测性。 **讲师：**张铭辉｜阿里云研发工程师

1001 3 3

探索云世界

|

9月前

|

存储运维开发工具

|

博文

警惕日志采集失败的 6 大经典雷区：从本地管理反模式到 LoongCollector 标准实践

本文总结了日志管理中的六大反模式及优化建议，涵盖日志轮转、存储选择、并发写入等常见问题，帮助提升日志采集的完整性与系统可观测性，适用于运维及开发人员优化日志管理策略。

319 5 5

阿里云开发者

|

10月前

|

监控 Kubernetes Go

|

博文

日志采集效能跃迁：iLogtail 到 LoongCollector 的全面升级

LoongCollector 在日志场景中实现了全面的重磅升级，从功能、性能、稳定性等各个方面均进行了深度优化和提升，本文我们将对 LoongCollector 的升级进行详细介绍。

729 87 89

啊逗

|

11月前

|

监控测试技术 Go

|

博文

告别传统Log追踪！GOAT如何用HTTP接口重塑代码监控

本文介绍了GOAT（Golang Application Tracing）工具的使用方法，通过一个Echo问答服务实例，详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景，助力Go项目质量保障与平稳发布。工具以轻量高效的特点，为开发团队提供数据支持，优化决策流程。

674 89 89

阿里云云原生

|

11月前

|

监控 Java Go

|

博文

无感改造，完美监控：Docker 多阶段构建 Go 应用无侵入观测

本文将介绍一种基于 Docker 多阶段构建的无侵入 Golang 应用观测方法，通过此方法用户无需对 Golang 应用源代码或者编译指令做任何改造，即可零成本为 Golang 应用注入可观测能力。

514 85 85

阿里云云原生

|

11月前

|

人工智能 API 数据库

|

博文

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP（Model Context Protocol）为例，演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接，让智能交互更加高效、直观。

3474 124 130

阿里云云原生

|

11月前

|

存储监控数据处理

|

博文

不断突破极致：SPL新版数据加工能力焕新登场

SPL 算子不仅完成了旧版 DSL 加工向更强大语法和算子形式的过渡，更将性能调优和场景适配做到了极致，解锁了时序预测和日志分析的更多可能性。作为重要的基础设施模块，SPL 加工能力将持续优化演进。未来的规划将继续聚焦通用性、性能与产品能力，为用户提供更加强大、灵活的技术支持。

490 6 6

阿里云云原生

|

11月前

|

监控 Go 数据处理

|

博文

唯有通过全行业的协同努力，加强整体、完善的网络安全可观测建设，才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信，在攻克这些网络安全难题之后，AI 创新将迎来更加安全、灿烂的未来。

528 5 5

云上的喵酱

|

存储前端开发数据可视化

|

博文

Grafana Loki，轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统，具备高可用性和多租户支持，专注于日志而非指标，通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程，并提供了快速搭建指南，包括准备步骤、部署命令及验证方法。此外，还展示了如何使用Grafana查看日志，以及一些基本的LogQL查询示例。最后，作者探讨了Loki架构的独特之处，提出了“巨型单体模块化”的概念，即一个应用既可单体部署也可分布式部署，整体协同实现全部功能。

4798 69 71

游客my26ms5vhjfgy

|

问答

本文介绍了AI Ops的概念及其在提升系统运维效率、洞察力和可观测性方面的作用。主要内容分为三个部分：一是监控、观测与洞察的区别及挑战，强调了数据整合和语义对齐的重要性；二是AI与计算如何重塑可观测性，通过UModel数字图谱和多模态存储分析架构实现数据联通；三是最佳实践与未来展望，展示了阿里云AI Stack可观测解决方案的应用案例，并总结了可观测性的四个发展阶段，最终愿景是借助AI力量让每个人成为多领域的专家。

1029 9 9

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

应用性能监控（APM）——分布式系统的精准透视

CMS2.0 全景综述：可观测范式升级与智能运维蓝图

云产品监控——多云环境下的统一资源视图

FinOps云成本分配指南

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

FinOps如何管理共享云成本

如何实践FinOps入门指南

FinOps for AI 概述

云监控2.0重磅升级！ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

从集成到稳定：UModel API 集成与运维自愈机制详解

模型 · 实体 · 指标：UModel 多维度探索机制设计与实践

从定位到关联：构建 UModel 数据发现与链路分析的全链路能力

构建运维世界模型之路：UModel 数据建模全景解读

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

云原生NPM与传统NPM的差异

【故障定位系列】波动度故障

从巴比馒头的“洗菜流水线”，来看“telemetry pipeline”工具的火热兴起

Operation Intelligence：可观测与智能运维（AIOps）

图文解析带你精通时序PromQL语法

2025 AI 原生编程挑战赛·赛题解析

阿里云可观测 2025 年 6 月产品动态

阿里云可观测 2025 年 4 月产品动态

零代码改造！LoongSuite AI 采集套件观测实战

Spring AI Alibaba 可观测原理与实践

警惕日志采集失败的 6 大经典雷区：从本地管理反模式到 LoongCollector 标准实践

日志采集效能跃迁：iLogtail 到 LoongCollector 的全面升级

告别传统Log追踪！GOAT如何用HTTP接口重塑代码监控

无感改造，完美监控：Docker 多阶段构建 Go 应用无侵入观测

MCP Server 开发实战 | 大模型无缝对接 Grafana

不断突破极致：SPL新版数据加工能力焕新登场

阿里云可观测 2025 年 3 月产品动态

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

当实时消费遇到 SPL：让数据处理更高效、简单

SLS 重磅升级：超大规模数据实现完全精确分析

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

高效定位 Go 应用问题：Go 可观测性功能深度解析

阿里云下一代可观测时序引擎-MetricStore 2.0

免去繁琐的手动埋点，Gin 框架可观测性最佳实践

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

Grafana Loki，轻量级日志系统

内网环境下的服务，使用阿里云pts时如何配置网络才能访问到内网的服务

构建深度可观测、可集成的网络智能运维平台

构建超大带宽、超高性能及稳定可观测的全球互联网络

助力企业高效构建安全、可观测的云上数据中心

众览全局，企业级云监控助力构建统一云产品可观测

端到端的ECS可观测性方案，助力云上业务安全稳定

AI + 可观测最佳实践：让业务从“看见”到“洞察”

活跃用户

相关产品