使用云监控2.0页面诊断问题根因-错误分析指南

简介: 针对一次故障的根因诊断,通过云监控2.0调用链分析。


输入数据

{"problem_id": "001", "time_range": "2025-08-28 15:08:03 ~ 2025-08-28 15:13:03", "candidate_root_causes": ["ad.Failure", "ad.LargeGc", "ad.memory", "ad.cpu","ad.networkLatency", "cart.Failure", "cart.cpu", "checkout.cpu", "checkout.Failure", "image-provider.cpu", "image-provider.memory", "image-provider.networkLatency", "inventory.Failure", "inventory.cpu", "inventory.memory", "inventory.networkLatency", "load-generator.cpu", "load-generator.FloodHomepage", "payment.Failure", "payment.Unreachable", "payment.cpu", "payment.memory", "payment.networkLatency", "product-catalog.Failure", "product-catalog.cpu", "product-catalog.memory", "product-catalog.networkLatency", "recommendation.CacheFailure", "recommendation.Failure", "recommendation.cpu", "recommendation.memory", "recommendation.networkLatency", "system.NodeKiller"], "alarm_rules": ["overall_error_count"]}

页面诊断

查看错误数据

  1. 访问下面的链接进入云监控2.0调用链分析页面:
  1. 依次点击左栏应用监控、顶栏调用链分析
  2. 将故障时段2025-08-28 15:08:03 ~ 2025-08-28 15:13:03原样复制,粘贴至页面右上角时间输入框,回车确认;
  3. 在页面左侧快捷筛选栏,选定错误状态,可得故障时段内全部错误调用;
  4. 进入Trace列表,在操作列点击详情按钮,可查看 Trace 信息:

观察拓扑视图

在顶栏点选拓扑视图,可见服务之间调用关系。视图大小可通过鼠标滚轮缩放;各方块位置可自由拖动,检查多组调用链,发现共同点系payment服务故障:

智能分析

Trace详情页面,点击检测到异常右侧的魔棒按钮,可展开 Copilot 并向其提问:

交叉检验

在 多个Trace详情页面,通过Copilot分析,检测到相同的异常

得出结论

结合拓扑视图、Copilot 分析、日志校验,可定位根因系payment服务出现故障:

{"problem_id": "001", "root_causes": ["payment.Failure"]}


相关文章
|
运维 监控 存储
使用SPL快速诊断问题根因 -- 错误分析指南
本内容记录了一次故障排查过程
2166 0
|
关系型数据库 MySQL Java
Window环境linux环境安装skywalking
Window环境linux环境安装skywalking
524 0
|
人工智能 运维 监控
2025 AI 原生编程挑战赛 数据获取文档
本文介绍了参赛者如何配置阿里云服务以参加AI运维赛。首先开通阿里云日志服务,随后创建RAM用户并为其分配访问权限。接着为该用户授权,确保其具备读取数据的权限。最后,可选地创建或重新生成AccessKey以用于后续的数据查询操作。整个流程帮助选手完成基础环境配置,以便使用阿里云日志服务进行数据分析。
2715 2
|
监控 Perl 容器
使用云监控2.0页面诊断问题根因-延迟分析指南
针对一次故障的根因诊断,云监控2.0调用链分析发现异常耗时,经排查为【checkout】服务独占耗时过长,进一步分析确认其CPU使用率突增至100%,判定根因为【checkout.cpu】性能问题。
1428 0
|
存储 数据采集 人工智能
以Trace为核心的根因分析概述
近期一直在学习和复现“根因分析”领域的相关文章,在这里跟大家一起分享下相关内容。这里不在赘述关于“可观测性”和“AIOps”的重要性和必要性,也不过多的陈述在“复杂系统”中进行快速根因诊断的必要性,直接进入到相关算法和系统设计部分。
2634 0
以Trace为核心的根因分析概述
|
运维 Kubernetes 容器
使用SPL快速诊断问题根因 -- 延迟分析指南
查找故障时段内系统异常根因。
873 0
|
机器学习/深度学习 监控 Web App开发
SLS机器学习最佳实战:根因分析(一)
通过算法,快速定位到某个宏观异常在微观粒度的具体表现形式,能够更好的帮助运营同学和运维同学分析大量异常,降低问题定位的时间。
13393 0
|
5月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
6月前
|
人工智能 运维 监控
让天下没有难查的故障:2025 阿里云 AI 原生编程挑战赛正式启动
本次大赛由阿里云主办,云原生应用平台承办,聚焦 Operation Intelligence 的智能运维(AIOps)赛道,为热爱 AI 技术的开发者提供发挥创意和想象力的舞台,借助 LLM 强大的推理能力与标准化整合的多源可观测数据,找到 AI 应用在智能运维(AIOps)场景上的新方式。
698 31
|
6月前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
688 0

热门文章

最新文章