开发者社区 > 云原生 > 云原生可观测 > 正文

应急处理过程主要有哪些几个要点?

已解决

应急处理过程主要有哪些几个要点?

展开
收起
游客lmkkns5ck6auu 2022-08-24 10:36:40 401 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    第一,需要分级的告警通知和升级策略,能够快速找到相应的人员处理告警。与此 同时,若原定人员因为某些原因无法及时处理,还需将告警升级到其他人员 以及时处理;

    第二,问题认领和处理流程标准化;

    第三,事后统计及复盘。系统出现故障并解决后,还需要事后的统计以及复盘工作, 让系统通过故障和教训避免后续再出现相同的问题,让系统更稳定;

    第四,运维处理工具化、白屏化,尽量减少手动输入命令的工作,将整套标准的处 理动作用工具进行固化。

    以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(上)》 电子书,点击https://developer.aliyun.com/ebook/download/7746 可下载完整版

    2022-08-24 15:29:23
    赞同 展开评论 打赏

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

相关电子书

更多
典型业务逻辑漏洞挖掘 立即下载
盘点电子数据取证中的难点与瓶颈 立即下载
代码未写,漏洞已出——谈谈设计不当导致的安全问题 立即下载