第一,需要分级的告警通知和升级策略,能够快速找到相应的人员处理告警。与此 同时,若原定人员因为某些原因无法及时处理,还需将告警升级到其他人员 以及时处理;
第二,问题认领和处理流程标准化;
第三,事后统计及复盘。系统出现故障并解决后,还需要事后的统计以及复盘工作, 让系统通过故障和教训避免后续再出现相同的问题,让系统更稳定;
第四,运维处理工具化、白屏化,尽量减少手动输入命令的工作,将整套标准的处 理动作用工具进行固化。
以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(上)》 电子书,点击https://developer.aliyun.com/ebook/download/7746 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。