使用云监控2.0页面诊断问题根因-延迟分析指南

简介: 针对一次故障的根因诊断,云监控2.0调用链分析发现异常耗时,经排查为【checkout】服务独占耗时过长,进一步分析确认其CPU使用率突增至100%,判定根因为【checkout.cpu】性能问题。

1. 输入数据

{"problem_id": "003", "time_range": "2025-08-29 10:14:20 ~ 2025-08-29 10:19:20", "candidate_root_causes": ["ad.Failure", "ad.LargeGc", "ad.memory", "ad.cpu","ad.networkLatency", "cart.Failure", "cart.cpu", "checkout.cpu", "checkout.Failure", "image-provider.cpu", "image-provider.memory", "image-provider.networkLatency", "inventory.Failure", "inventory.cpu", "inventory.memory", "inventory.networkLatency", "load-generator.cpu", "load-generator.FloodHomepage", "payment.Failure", "payment.Unreachable", "payment.cpu", "payment.memory", "payment.networkLatency", "product-catalog.Failure", "product-catalog.cpu", "product-catalog.memory", "product-catalog.networkLatency", "recommendation.CacheFailure", "recommendation.Failure", "recommendation.cpu", "recommendation.memory", "recommendation.networkLatency", "system.NodeKiller"], "alarm_rules": ["frontend_avg_rt"]}


2. 页面操作

2.1 查看错误数据

  1. 访问下面的链接进入云监控2.0调用链分析页面:
  1. 依次点击左栏应用监控、顶栏调用链分析
  2. 将故障时段2025-08-29 10:14:20 ~ 2025-08-29 10:19:20原样复制,粘贴至页面右上角时间输入框,回车确认。在Span列表中,点击耗时排序箭头,在操作列点击详情按钮,查看耗时较长的 Span 信息:

根据文档说明,点击黑线最长的轨迹,可见自身耗时较长的调用段checkout SERVER,对应的主机名为checkout-5d79bbcb9-mvnkr

2.3 智能分析

Trace详情页面,点击检测到异常右侧的魔棒按钮,可展开 Copilot 并向其提问:

2.4 定位性能问题

在左栏菜单点击容器洞察,悬停展开资源中心菜单,点击Pod列表

在页面顶部点击+展开查询栏。展开 key 菜单,选定name;展开 value 菜单,选择前文出现异常的机器名checkout-5d79bbcb9-mvnkr,点击确认

Pod 名称列表中,悬停展开操作列表,点击眼球按钮,在弹出页面中点击打开实体

实体详情页面,CPU Resource栏目下点击CPU Usage图表中的同比环比按钮:

点击展开选单,选择1小时,点击查询

对比 1 小时前的数据可发现:CPU 使用率从 24.889%显著上升至 99.287%,可视为异常。

3. 得出结论

结合调用链视图与 Copilot 分析结果,观察独占耗时高的调用段(Span)及其性能指标,可以定位故障根因系checkout出现 CPU 负载故障。

{"problem_id": "003", "root_causes": ["checkout.cpu"]}


相关文章
|
监控
使用云监控2.0页面诊断问题根因-错误分析指南
针对一次故障的根因诊断,通过云监控2.0调用链分析。
2502 0
|
运维 Kubernetes 容器
使用SPL快速诊断问题根因 -- 延迟分析指南
查找故障时段内系统异常根因。
873 0
|
1月前
|
人工智能 弹性计算 数据可视化
2026年阿里云新老用户部署 OpenClaw(Clawdbot) 流程步骤和使用指南汇总
OpenClaw作为阿里云生态下轻量化、高适配的AI自动化代理工具,2026年版本在部署便捷性、功能扩展性上实现全面升级,成为阿里云用户实现“云端AI自动化”的核心选择。无论是个人用户快速落地基础功能,还是企业用户定制化适配业务场景,掌握标准化的部署流程与高效的使用方法都是关键。本文将从部署前准备、阿里云一键部署全流程、核心功能使用、进阶配置、常见问题解决五大维度,为阿里云用户整理一份完整的OpenClaw部署与使用指南,包含实操代码命令与场景化使用技巧,覆盖从0到1的全生命周期管理。
775 14
|
运维 监控 存储
使用SPL快速诊断问题根因 -- 错误分析指南
本内容记录了一次故障排查过程
2166 0
|
Java 算法 程序员
带你读《新一代垃圾回收器ZGC设计与实现》之一:垃圾回收器概述
JDK 11于2018年9月25日正式发布,这个版本引入了许多新的特性,其中最为引人注目的就是实现了一款新的垃圾回收器ZGC。
|
6月前
|
人工智能 JSON 安全
无需复杂正则:SLS 新脱敏函数让隐私保护更简单高效
SLS 推出 mask 脱敏函数,支持 keyword 和 buildin 模式,简化敏感数据识别与处理,提升脱敏效率与性能,适用于结构化及非结构化日志。
293 52
|
机器学习/深度学习 监控 Web App开发
SLS机器学习最佳实战:根因分析(一)
通过算法,快速定位到某个宏观异常在微观粒度的具体表现形式,能够更好的帮助运营同学和运维同学分析大量异常,降低问题定位的时间。
13393 0
|
6月前
|
人工智能 运维 监控
让天下没有难查的故障:2025 阿里云 AI 原生编程挑战赛正式启动
本次大赛由阿里云主办,云原生应用平台承办,聚焦 Operation Intelligence 的智能运维(AIOps)赛道,为热爱 AI 技术的开发者提供发挥创意和想象力的舞台,借助 LLM 强大的推理能力与标准化整合的多源可观测数据,找到 AI 应用在智能运维(AIOps)场景上的新方式。
698 31
|
人工智能 运维 监控
2025 AI 原生编程挑战赛 数据获取文档
本文介绍了参赛者如何配置阿里云服务以参加AI运维赛。首先开通阿里云日志服务,随后创建RAM用户并为其分配访问权限。接着为该用户授权,确保其具备读取数据的权限。最后,可选地创建或重新生成AccessKey以用于后续的数据查询操作。整个流程帮助选手完成基础环境配置,以便使用阿里云日志服务进行数据分析。
2715 2
|
7月前
|
机器学习/深度学习 自然语言处理 API
Qwen-MT:翻得快,译得巧
今天,机器翻译模型Qwen-MT正式上线,支持92种语言互译,具备高度可控性与低延迟、低成本特点,适用于多种场景。开发者可通过Qwen API体验其强大翻译能力。
1412 15

热门文章

最新文章