开发者社区 > 云原生 > 云原生可观测 > 正文

监控的数据在系统分为哪几个层面?

已解决

监控的数据在系统分为哪几个层面?

展开
收起
游客lmkkns5ck6auu 2022-08-24 10:37:00 318 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    最上层为应用层,主要关心核心业务接口的健康度,通过 RED(Rate、Error、Duration) 三个黄金指标进行衡量。其中 Rate 指接口的 QPS 或 TPS,Error 指错误率或错误数,Duration 指接口在多长时间内能够返回。可以通过黄金指标来定义 SLO 并分配 Error Budget。如果 Error Budget 很快耗尽,则应及时调整 SLO,直到系统优化到足够完 善后,再将其调高。也可以通过 Apdex Score 衡量服务的健康度。

    此外,应用层也会关心与业务强相关的指标,比如营收、用户数、UV、PV 等。中间层为中间件和存储,主要关心系统里大量应用的 Kafka client 端消费位点的提交状况、生产者缓冲区的占用率、是否会提前将缓冲区占满导致新的消息进不来、消费延迟、平均消息大小等,比如 Kafka Broker 端的水位、读写流量、磁盘使用率等,再比如云盘 ESSD 的挂载成功率、IOPS、磁盘空余空间等。最下层是基础设施层,关心的指标较为复杂,典型的有比如 ECS(K8s Node)CPU 内存水位、重启次数、定时运维事件等,比如 K8s 核心组件的 API server、ETCD、调度相关指标等,比如业务 Pod 的 Pending 状态、是否有资源可供足够的调度、OOMKilled 事件、Error 事件等,再比如VPC/SLB 相关的出口带宽、丢弃连接数等。

    以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(上)》 电子书,点击https://developer.aliyun.com/ebook/download/7747 可下载完整版

    2022-08-24 15:38:19
    赞同 展开评论 打赏
问答分类:

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

热门讨论

热门文章

相关电子书

更多
数据运营系统的核心应用场景实现方案浅析 立即下载
基于资产配置业务场景下的全链路监控平台 立即下载
基于资产配置业务场景下全链路监控平台 立即下载