在容器服务ACK进入一个集群后,点击运维管理,进入集群拓扑功能页面。如果没有安装eBPF探针则会提示安装,安装完成后开箱即用,可以获得整个集群的流量拓扑。
页面包含了deployment、deamonset、和statfulset之间的流量关系。点击节点可以看到它对外提供的应用性能,也可以查看节点的上下游。通过上下游的查看,可以快速检查它是否按照预定的架构运行。
此外,也可以点击边进行查看,比如可以看到MySQL的QPS以及响应时间等。
除了查看指标,还可以查看详情,比如查看SQL语句以及网络耗时,比如请求发到对端用了多久、对端处理用了多久、响应的内容下载耗时多久等,可以快速定位问题所在。同时还提供了节点过滤的能力,可以快速过滤出用户感兴趣的节点,同时也可以搜索对应的节点。
Grafana统一的大盘为1+N的模式。1是指集群的全局大盘提供了整个集群最核心的资源总览,包含事件,可以快速查看各类事件的个数及详情,可以查看节点是否健康、无状态应用deployment 是否健康以及有状态应用、deamonset等。
每一个特定资源总览的结构也是一致的,包含“总”和“分”。“总”是对整个集群进行概括的总结,可以快速通过阈值确认是否有问题,有问题的阈值会用鲜艳的颜色标出。比如上图可以看出有1个节点的CPU请求率过高,而具体哪一个个节点的请求率过高,则由“分”负责查找,通过请求率排序,快速找到问题节点。
接下篇:https://developer.aliyun.com/article/1222958?groupCode=alisoftwaretech