《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念

第四章 监控告警与应急预案


上一章,我们全面介绍了压测调优和技术演练。但是,任何的压测调优、技术演练等风险治理手段都不能完全消除风险,那么我们就需要有对应的手段来感知风险、提示风险,并作出对应的风险处理。本章,我们将讨论如何通过监控告警体系来实现对各系统实时的运转情况和风险的感知与处理,以及对应的应急预案。


4.1 云上大型赛事监控告警


4.1.1 监控告警基本概念


4.1.1.1 监控告警系统CTPS模型原则


对于云上大型赛事活动来说,建设一个相对优秀的监控告警系统是有章法可依的,下面是整理抽象的适用于建设一般监控告警系统的CTPS模型。

全面(Comprehensive),监控覆盖要全面,从系统监控、应用监控、云平台监控、云产品监控到业务监控缺一不可。对于云上系统来讲,因为有物理网和云网络、IaaS和PaaS的区分,因此天然是有分层的概念的,底层为云平台,中层为云产品,上层为业务应用,一个全面的监控告警系统,应至少包含这三层。

实时(Timely),告警实时性要高,一般来说从监控触发告警到工程师接收告警,整个流程时间消耗是秒级的。得益于阿里云成熟的云平台故障管理体系,及标准化商业化的监控产品'云监控',我们总是可以在云平台层和云产品层面,做到实时的告警,即时发现即时告警。而在应用层的监控则见仁见智,其告警的实时性则取决于监控系统的设计。

准确(Precise),告警信息要准确,要有足够高的信噪比。

智能(Smart),告警信息要智能,告警可以给到工程师更多的有效信息,可以自动化完成一些根因分析甚至运维操作。


4.1.1.2 云上大型赛事监控告警系统设计


4.1.1.2.1 分层监控

云上大型赛事虽然东西向的结构比较复杂,但是其纵向的层次结构是比较清晰的。最底层为云平台物理层,这里是云产品的底座,包括IDC机房、机房中的计算和存储集群、物理网络网络设备(传统的接入、汇聚、核心三层)、云产品底层物理设备(如XGW、CGW等)、及其他平台层设备等。云产品则是运行在云平台物理层之上的标准化IaaS\PaaS\SaaS产品,是我们售卖的商品,也是我们给客户提供的资源。再往上则是客户的应用层,基于我们的标准化云产品构建具体的业务。

因此,云上大型赛事的监控告警系统天然就适配分层的设计理念,对整个系统每一层分别进行监控和告警,相互之间不必有强关联,可以解耦式设计各层的监控告警体系,再最终有机的整合到一起。

对于云平台物理层的监控,我们关注的是物理设备的运转情况,例如机房电压、网络设备资源利用率、底层设备故障情况等等,这个层面是很难感知到应用业务层的运转情况的,比如计算集群中某一台宿主机宕机,其实一般情况下我们并不清楚这个问题会造成最上层应用受到什么影响,这就需要通过云产品层和详细系统架构图做一个连接,以在告警出来时我们能第一时间掌握业务受损情况。

对于云产品层的监控,通常是采用各厂商的商业化云监控产品对各标准云产品进行监控和告警。阿里云云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务,已经是我们非常成熟的产品,也积累了丰富详细的监控方案,并仍然在不停迭代发展中。阿里云所有的标准化云产品的底层监控数据都已经接入云监控,底层全部打通,并且云监控开放了大量的监控告警能力给客户,可以说,任何一个部署在阿里云上的大型系统,其云产品层的监控基本肯定是需要由云监控(CloudMonitor)来做主导。

对于应用业务层的监控,大部分情况下需要云厂商和赛事方共建,这有时候取决于客户侧的IT技术水平,或者阿里云的TAM\SRE团队多大程度上介入到客户的业务中。常见的监控指标有应用层的接口可用率、接口时延、流量等,这些指标是最直观反应应用运转情况的指标。阿里云有一些商业化产品具有应用层监控的能力,例如云监控的站点监控,或者ARMS业务监控,通过应用探针集成到客户具体业务功能中收集数据,可以提供业务层的洞察。


4.1.1.2.2 监控数据生命周期管理

监控数据的全生命周期包括数据生产、数据采集与存储、数据消费三部分,下面分别简单介绍在大型赛事场景下针对监控数据的管理。

大型赛事场景下,由于系统架构天然分层的存在,监控数据会产生在不同的数据源,这些数据源多种多样,可能来自于物理层的设备日志,也可能来自于产品运行时埋点日志,也可能来自于应用探针探测,这些都是监控数据的原始metadata。这些原始数据是层系统运转时产生的生产实时运转情况,但通常是无业务含义的数据流。

不同数据源的原始数据有不同的采集与存储方式,注意数据采集这里有一个不可能三角,即:采集速率、准确性、成本无法同时达到最优,如果所有的原始数据都采集存储,那么准确性能达到最高,但成本会比较高,如果要降成本,可以根据情况增大采样间隔,但这势必会影响到数据的准确性,所以数据采集这里总是会有一个平衡与取舍。数据存储方面,对于阿里云云平台物理层或者云产品层来讲,常见的监控数据存储方式是由产品侧数据源通过接口调用把采集到的数据投递到云产品内部账号的日志服务(SLS)的一个logstore中,阿里云日志服务是我们的一款标准化商业化产品,一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,已成为阿里云各层云产品存储生产日志的缺省值。对于应用业务监控,可以使用标准的日志服务,也可以自建日志存储库。

监控数据的数据消费,其实就是告警与处理。阿里云云监控提供了完善的告警功能,可以自定义阈值告警规则和事件告警规则,并实时推送至邮件、短信、电话、Webhook等多种渠道,云上的日志服务+云监控告警功能,已成为大型赛事监控告警系统的事实标准。

相关文章
|
开发框架 Prometheus 监控
SpringCloud微服务实战——搭建企业级开发框架(四十四):【微服务监控告警实现方式一】使用Actuator + Spring Boot Admin实现简单的微服务监控告警系统
 业务系统正常运行的稳定性十分重要,作为SpringBoot的四大核心之一,Actuator让你时刻探知SpringBoot服务运行状态信息,是保障系统正常运行必不可少的组件。 spring-boot-starter-actuator提供的是一系列HTTP或者JMX监控端点,通过监控端点我们可以获取到系统的运行统计信息,同时,我们可以自己选择开启需要的监控端点,也可以自定义扩展监控端点。 Actuator通过端点对外暴露的监控信息是JSON格式数据,我们需要使用界面来展示,目前使用比较多的就是Spring Boot Admin或者Prometheus + Grafana的方式
1657 57
|
缓存 Prometheus 监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)
240 0
|
监控 安全 API
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)
295 0
|
弹性计算 监控 关系型数据库
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
183 0
|
监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.2 北京冬奥告警预案
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.2 北京冬奥告警预案
154 0
|
5月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
144 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
4月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
228 0
|
7月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
299 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
11月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
980 3
|
7月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
324 22