《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)

本文涉及的产品
云监控,每月短信1000条
简介: 《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)

4.1.2 北京冬奥监控告警体系介绍


4.1.2.1 四层监控


在冬奥保障项目中,我们把监控系统自上到下分为四个层次,分别为:IDC监控、云平台层监控、云产品层监控、业务层监控,并且为每层定义了核心的监控项。


4.1.2.1.1 IDC层监控

主要是各针对客户资源所在的IDC层面的监控告警,包含电力、温度、功耗、硬件故障等方面进行监控告警。这是最底层的监控,由阿里云IDC部门(基础设施事业部)负责。

image.png

图:北京冬奥会IDC数字大盘


4.1.2.1.2 云平台层监控

主要是各产品自己维护的底层监控,客户是不可见的。例如XGW流量监控、CDN节点监控等。这是阿里云各产品方自己稳定性建设的一部分。在本次冬奥保障过程中,很多产品方专门为冬奥相关资源定制开发了相关的监控。


4.1.2.1.3 云产品层监控

利用产品云监控,Prometheus,DataV等产品能力,我们针对不同的业务系统涉及到的云资源进行细化和拆分。在云产品层,我们使用的最多的是阿里云云监控这个产品,因为所有其他云产品的底层数据源都会上报至云监控LogStore,这样底层的无缝衔接赋予了云监控强大的产品监控能力,可以方便的在云监控上设置监控阈值告警和事件告警,设置自定义事件等进行消费。

基础资源监控:ECS1CPU利用率、内存利用率、磁盘空间;POD1CPU利用率、内存利用率、磁盘空间;RDS1CPU使用率、内存使用率、IOPS使用率、磁盘空间;Redis CPU使用率、内存使用率;CSG前端读写速率、共享缓存使用率、用户态空间使用率、Trottling状态等。

网络层监控,主要是各网络组件参数:带宽情况、活跃连接数、限速丢包率、专线健康检查丢包率等。

image.png

图:北京冬奥主账号下的监控告警规则


我们还通过云原生的ARMS对冬奥容器集群进行一体化监控,根据不同的命名空间可以基于NS、Pod维度详细查看CPU、内存使用率以及网络带宽等情况。

image.png

图:针对北京冬奥核心系统ACK集群的Prometheus监控


4.1.2.1.4 业务层监控

应用核心指标的监控,参考谷歌提出的四个黄金监控指标,一般可以分为四大类

可用率,服务的请求成功率。

时延,请求的耗时。

错误数,主要包括管控侧以及资源侧。错误数,主要包括管控侧以及资源侧。

流量,主要包括流量指标、流量移动、流量跌零监控。

除了通过现有的的工具比如ARMS、Zabbix、Open-Falcon等等客户可以使用的公有云工具,针对这次重保我们也开发了一些与业务对应的一些业务异常监控,直接推送到我们的告警群。



《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2): https://developer.aliyun.com/article/1226449?groupCode=supportservice

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
相关文章
|
存储 数据采集 运维
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念
101 0
|
监控 安全 API
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
172 0
|
弹性计算 监控 关系型数据库
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
|
监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.3 北京冬奥技术场景预案(3)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.3 北京冬奥技术场景预案(3)
|
监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.3 北京冬奥技术场景预案(1)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.3 北京冬奥技术场景预案(1)
|
监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.3 北京冬奥技术场景预案(2)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.3 北京冬奥技术场景预案(2)
|
监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.2 北京冬奥告警预案
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.2 北京冬奥告警预案
|
云安全 弹性计算 监控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.5 冬奥重保--赛时每日巡检
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.5 冬奥重保--赛时每日巡检
104 0
|
弹性计算 负载均衡 监控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(1)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(1)
103 0
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(2)
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(2)