《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(2)

《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1): https://developer.aliyun.com/article/1226450?spm=a2c6h.13148508.setting.20.6c6a4f0exAWFjB


4.1.2.2 监控大屏


在北京冬奥保障过程中,基于分层,我们开发了非常多的监控大屏,每一层都有非常详细的系统监控指标可查。这里介绍其中两个比较重要的监控大屏:直接对客户展示的前场Grafana监控大屏,和在阿里云后场的重保作战室现场大屏幕上播放的后场作战室监控大屏。


4.1.2.2.1 前场Grafana监控大屏

在北京冬奥技术运行中心(TOC)现场,包括阿里云在内的多家冬奥供应商、北京冬奥组委技术部等现场联合办公。我们利用云监控集成Grafana能力展示信息系统的云产品实时使用情况。一共配置了40个Grafana大盘,显示在TOC的大屏幕及我们在TOC现场办公的工程师电脑上。现场盯屏的工程师主要监控这些Grafana大盘,以了解全部系统的实时运转情况。


4.1.2.2.2 后场作战室监控大屏

利用阿里云飞天技术服务平台Apsara ServiceStack-CloudDoc大屏能力,按项目群和应用汇总资源及水位监控情况,多场点人员排班情况,及整体服务水平情况。作战室监控大屏显示在阿里云作战室内。

Apsara ServiceStack-CloudDoc拥有强大采集系统,可实现阿里云、政务云、私有云等多云API配置化采集能力,实时采集数据服务奥运作战室大屏,对关键指标做实时监控和分析,实时掌握奥运云上系统的整体运行趋势,包括系统负载、流量趋势和安全风险等。

同时,我们也一并把排班管理和多场点管理也集成到了Apsara 1 Ser -viceStack-CloudDoc中,定制化开发上下班打卡功能,并合理限定打卡地点实现冬奥重保护航值班管控,通过服务大屏做到对整体服务情况一目了然。具体的护航排班及流程可以参考章节"保障阵型与流程管理"。

image.png

图:北京冬奥阿里云后场作战室监控大屏

image.png

图:北京冬奥阿里云后场作战室服务大屏



《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3): https://developer.aliyun.com/article/1226448?groupCode=supportservice

相关文章
|
开发框架 Prometheus 监控
SpringCloud微服务实战——搭建企业级开发框架(四十四):【微服务监控告警实现方式一】使用Actuator + Spring Boot Admin实现简单的微服务监控告警系统
 业务系统正常运行的稳定性十分重要,作为SpringBoot的四大核心之一,Actuator让你时刻探知SpringBoot服务运行状态信息,是保障系统正常运行必不可少的组件。 spring-boot-starter-actuator提供的是一系列HTTP或者JMX监控端点,通过监控端点我们可以获取到系统的运行统计信息,同时,我们可以自己选择开启需要的监控端点,也可以自定义扩展监控端点。 Actuator通过端点对外暴露的监控信息是JSON格式数据,我们需要使用界面来展示,目前使用比较多的就是Spring Boot Admin或者Prometheus + Grafana的方式
1657 57
|
存储 数据采集 运维
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.1 监控告警基本概念
224 0
|
缓存 Prometheus 监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(1)
240 0
|
弹性计算 监控 关系型数据库
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.1 云上大型赛事监控告警——4.1.2 北京冬奥监控告警体系介绍(3)
183 0
|
监控
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.2 北京冬奥告警预案
《云上大型赛事保障白皮书》——第四章 监控告警与应急预案——4.2 云上大型赛事应急预案——4.2.2 北京冬奥告警预案
154 0
|
5月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
144 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
4月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
228 0
|
7月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
299 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
11月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
980 3
|
7月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
324 22