开发者社区 > 云原生 > 云原生可观测 > 正文

排查的普适原则有哪些?

已解决

排查的普适原则有哪些?

展开
收起
游客lmkkns5ck6auu 2022-08-24 12:14:18 277 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    以排查系统问题为例,要理解系统,要先关注基础知识,理解编程语言基本的计算 机科学知识,关注系统大图比如架构部署和重大流程,要关注运行细节,要对核心 功能的算法和数据结构了然于心,还要关注系统的运维工具,能够了解发布、回滚 和监控。

    在理解的基础上,还要能够复现问题,主要关注问题发生的触发条件以及问题发生 时数据现场的保留,包含指标、链路、日志、事件等。

    有了现场再加之对于系统的,才可以定位问题。通过现场保留的数据,进行关联分 析;基于理解,可以快速用二分定位到根因。在定位的过程中,尤其要关注变更,因为有大量的系统问题是由变更导致的。

    确定根因后再进行修复,既要治标也要治本,并且要充分验证,确保不引入新的问题。

    以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(下)》 电子书,点击https://developer.aliyun.com/ebook/download/7732 可下载完整版

    2022-08-24 14:55:49
    赞同 展开评论 打赏

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

相关电子书

更多
代码未写,漏洞已出——谈谈设计不当导致的安全问题 立即下载
使用Arthas 抽丝剥茧深入应用-线上诊断利器之外 立即下载
阿里巴巴代码缺陷检测探索与实践 立即下载