前言
监控作为每个公司IT系统中必备的功能,伴随着计算机的诞生就已经开始出现,经过几十年的发展,现在的IT技术和架构已经出现了非常大的变化。开发模式、系统架构、部署模式、基础设施都已经经历过多次的架构变迁,目前主流以微服务、容器化、云、DevOps这些技术为主。
伴随着这些架构的变迁,带来的影响是整个的系统也更加的复杂、开发依赖更多的人和部门、部署模式和运行环境也更加动态和不确定,因此IT行业也已经到了需要更加系统化、体系化进行观测的这一过程。对于监控系统,也在经历着巨大的变革,朝向云原生、数据融合、智能等方向演进。
监控系统发展历程
回顾整个IT监控的发展过程,我个人认为可分为4个阶段,分别是Unix时代、数据中心时代、分布式时代以及云原生时代:
- Unix时代:随着Unix、Linux的流行,我们才有了真正意义上的IT系统,在80、90年代的时候,应用通常都是单机部署,而且很简单。为了能够定位单机应用的一些问题,Unix中增加了很多Metrics,例如CPU、内存、IO的使用情况。同时为了更快速的获取这些指标,Unix/Linux中提供了很多命令行工具,例如top、vmstat、iostat等,同时为使用桌面系统的人提供了很多图形化的工具来看问题,这也是IT监控中最早的折线图应用。在这一阶段,大家对于性能、用户体验等关注不是高,基本上只在乎可用性,也就是服务是否能够Work。
- 数据中心时代:在90年代,越来越多的公司开始搭建自己的数据中心,少到几台,多到成百上千台。这个时候出现了专门的IT运维人员,为了更好的管理这些机器,开发了SNMP(Simple Network Management Protocol)协议,用于管理和监控数据中心中每台机器的状态。这个时候的监控架构主要还是单机的方式来实现,通过SNMP协议,来监控各个主机的网络和硬件信息。这一阶段也出现了跨主机的应用以及提供对外服务的Web类应用,监控系统也会部分关注网络延迟,但并不是实际的用户请求延迟。
- 分布式时代:在21世纪后,互联网开始流行,应用场景也越来越广,单机已经逐渐承受不住日益上涨的请求量,因此分层式的分布式架构开始逐渐流行。而监控系统的分层模式也划分的逐渐明显,例如主机监控、网络监控、中间件监控、应用监控等,其中应用监控是新出现的范畴,对于应用监控要求不仅关注应用可用性问题,也要监控和解决性能问题。这一阶段监控系统的架构也变为分布式,后端会有多台机器多个模块组成,例如数据处理、存储、告警等,其中每个模块也可能是分布式的,例如分布式的流式处理、分布式的数据库等。
- 云原生时代:随着云计算、容器化技术的成熟,很多公司开始采用容器化、微服务的技术来开发应用,应用的部署环境也会选择公有云或者私有云的方式。在云原生的场景下,虚拟化会更加彻底、环境动态性更强,传统的一些监控方式将不再适合,因此需要有能够对接Kubernetes、微服务、云上资源的监控系统。而监控目的也更加向上,关注用户实际的体验和问题排查的效率,因此除了采集更多的监控信息外,也需要能够和其他的可观测数据(例如Logs/Traces)进行关联分析来快速定位问题,同时也引入AI的技术来进行自动化的异常发现、定位与修复。
云原生时代的监控方案
云原生时代的监控方案,除了监控方案本身需要的进步外,监控的能力和效果也必须提升一个阶层,这里我们总结起来,需要以下几个特性:
- 范围广:从基础设施、容器/K8s、云厂商、中间件、数据库等都能够支持
- 统一视图:各种不同层级的数据都能有统一的入口和视图来查看
- 统一告警:告警是监控的重要组成部分,告警也必须能够实现统一的管理,并且具备智能降噪、动态值班表、告警合并/路由等一些高级特性,降低管理和使用成本
- 智能:企业的IT系统中所涉及的组件数量庞大,静态的规则告警很难适用,因此必须要有一些启发式的AIOps时序异常检测方式,能够自动发现异常的曲线并告警
- 数据融合分析:可以便捷的和Trace、Log、Event等其他可观测数据有效的进行关联分析,便于快速定位和解决问题
SLS全栈监控
SLS作为阿里可观测性数据引擎,具备可观测数据日志、指标、分布式链路追踪、事件等的一站式采集和存储。为了便于用户快速接入和监控业务系统,SLS提供了全栈监控的APP,将各类监控数据汇总到一个实例中进行统一的管理和监控。全栈监控基于SLS的监控数据采集、存储、分析、可视化、告警、AIOps等能力构建,详细功能如下:
- 实时监控各类系统,包括主机监控、Kubernetes监控、数据库监控、中间件监控等。
- 支持ECS、K8s一键安装,支持图形化的监控配置管理,无需登录主机配置采集监控项。
- 运维老司机多年经验的报表总结,包括资源总览、水位监控、热点分析、详细指标等数十个报表。
- 支持自定义的分析,支持包括PromQL、SQL92等多种分析语法。
- 支持对接AIOps指标巡检,利用机器学习技术自动发现异常指标。
- 支持自定义告警配置,告警通知直接对接消息中心、短信、邮件、语音(电话)、钉钉,并支持对接自定义WebHook。
全栈监控功能概览
主机监控
仪表盘 |
说明 |
资源总览 |
用于实时可视化展示主机配置信息和指标信息的总体情况,包括CPU核数、磁盘总空间、CPU平均使用率、内存平均使用率等。 |
主机列表 |
用于实时可视化展示每台主机的配置信息和指标信息,包括CPU核数、内存、CPU使用率、内存使用率等。 |
热点分析 |
用于实时可视化热点机器的CPU、内存等资源使用情况,包括CPU热点指标分布、内存热点指标分布、Top CPU使用率、Top 内存使用率等。 |
单机指标-简 |
用于实时可视化展示主机的CPU、内存等资源的使用趋势,包括CPU使用率、磁盘空间使用率、内存使用率等。 |
单机指标-详 |
用于实时可视化展示主机的CPU、内存等资源处于不同状态的使用趋势,包括CPU(处于Total、System、User、IOWait状态的CPU使用趋势)、内存(处于Total、Availableused、Used状态的内存使用趋势)等。 |
Kubernetes监控
仪表盘 |
说明 |
资源总览 |
用于实时可视化展示Kubernetes中资源的使用情况,包括Pod、Host、Service、Deployment等。 |
水位监控 |
用于实时可视化展示Kubernetes中资源的水位情况,包括Pod运行数、CPU总数、文件系统使用量等。 |
运行时监控 |
用于实时可视化展示Kubernetes中处于运行状态的资源信息,包括Deployment运行数量、Daemonset运行数量等。 |
核心组件监控 |
用于实时可视化展示Kubernetes中核心组件的相关数据,包括ETCD对象数、ETCD请求QPS等。 |
Node列表 |
用于实时可视化展示Node的整体情况以及每个Node的配置信息和指标信息,包括Node总数、运行中的Pod总数等。 |
Node指标 |
用于实时可视化展示Node的指标信息,包括可申请Pod数量、CPU使用率等。 |
Pod列表 |
用于实时可视化展示Pod的整体情况以及每个Pod的配置信息和指标信息,包括可申请的Pod总数等。 |
Pod指标 |
用于实时可视化展示Pod的指标信息,包括Pod基本信息、容器基础信息等。 |
Deployment列表 |
用于实时可视化展示每个Deployment的配置信息和指标信息,包括Deployment所属命名空间、集群等。 |
Deployment指标 |
用于实时可视化展示Deployment的指标信息,包括CPU Limit使用率、内存Limit使用率等。 |
StatefulSet列表 |
用于实时可视化展示每个StatefulSet的配置信息和指标信息,包括StatefulSet所属命名空间、集群等。 |
StatefulSet指标 |
用于实时可视化展示StatefulSet的指标信息,包括CPU Limit使用率、内存Limit使用率等。 |
DaemonSet列表 |
用于实时可视化展示每个DaemonSet的配置信息和指标信息,包括DaemonSet所属命名空间、集群等。 |
DaemonSet指标 |
用于实时可视化展示DaemonSet的指标信息,包括CPU Limit使用率、内存Limit使用率等。 |
数据库监控
仪表盘 |
说明 |
MySQL监控 |
用于实时可视化展示MySQL数据库中监控指标,包括启动时间、Query执行次数、连接数等。 |
Redis监控 |
用于实时可视化展示Redis数据库中的监控指标,包括开启集群实例个数、Redis运行时间、连接的客户端数量等。 |
Elasticsearch监控 |
用于实时可视化展示Elasticsearch中的监控指标,包括Cluster health、Nodes等。 |
Clickhouse监控 |
用于实时可视化展示Clickhouse数据库中的监控指标,包括Query、Merge等。 |
MongoDB监控 |
用于实时可视化展示MongoDB数据库中的监控指标,包括Available Connections、Query Operations等。 |
中间件监控
仪表盘 |
说明 |
JVM监控 |
用于实时可视化展示JVM中的监控指标,包括进程运行时长、总内存、堆内存、CPU使用率等。 |
Nginx监控 |
用于实时可视化展示Nginx中的监控指标,包括Processed connections、QPS等。 |
Tomcat监控 |
用于实时可视化展示Tomcat中的监控指标,包括进程运行时长、QPS、错误数、CPU使用率等。 |
Kafka监控 |
用于实时可视化展示Kafka中的监控指标,包括Controller状态、总Topic数、每秒消息数量等。 |
NVIDIA GPU监控 |
用于实时可视化展示NVIDIA GPU中的监控指标,包括GPU Utilization、Memory Utilization等。 |
Coming soon
现阶段全栈监控提供了主机监控、K8s监控、数据库监控、中间件监控,后续横向和纵向的功能扩展也即将和大家见面,例如:
- 云资源监控,包括阿里云上各类监控以及AWS、Azure等其他云上的监控指标
- 主机增加更多的功能,例如进程级别监控、内核的监控、进程/内核Profile能力等
- K8s增加性能、变更以及服务拓扑等监控能力;数据库增加诊断、Plan监控等;中间件支持更多的种类
- 增加和用户体验以及应用相关的监控能力,例如拨测、前端监控、移动端监控等
参考
- 全栈监控:https://sls.console.aliyun.com/lognext/app/monitor
- 监控数据接入:https://help.aliyun.com/document_detail/354229.html
- 大盘说明:https://help.aliyun.com/document_detail/364237.html
- 智能异常诊断:https://help.aliyun.com/document_detail/356467.html
- 告警配置:https://help.aliyun.com/document_detail/209951.html