最上层为应用层,主要关心核心业务接口的健康度,通过 RED(Rate、Error、Duration) 三个黄金指标进行衡量。其中 Rate 指接口的 QPS 或 TPS,Error 指错误率或错误数,Duration 指接口在多长时间内能够返回。可以通过黄金指标来定义 SLO 并分配 Error Budget。如果 Error Budget 很快耗尽,则应及时调整 SLO,直到系统优化到足够完 善后,再将其调高。也可以通过 Apdex Score 衡量服务的健康度。
此外,应用层也会关心与业务强相关的指标,比如营收、用户数、UV、PV 等。中间层为中间件和存储,主要关心系统里大量应用的 Kafka client 端消费位点的提交状况、生产者缓冲区的占用率、是否会提前将缓冲区占满导致新的消息进不来、消费延迟、平均消息大小等,比如 Kafka Broker 端的水位、读写流量、磁盘使用率等,再比如云盘 ESSD 的挂载成功率、IOPS、磁盘空余空间等。最下层是基础设施层,关心的指标较为复杂,典型的有比如 ECS(K8s Node)CPU 内存水位、重启次数、定时运维事件等,比如 K8s 核心组件的 API server、ETCD、调度相关指标等,比如业务 Pod 的 Pending 状态、是否有资源可供足够的调度、OOMKilled 事件、Error 事件等,再比如VPC/SLB 相关的出口带宽、丢弃连接数等。
以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(上)》 电子书,点击https://developer.aliyun.com/ebook/download/7747 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。