《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现

3.3.1故障发现


故障发现是基于监控报警能力,通过多角度、多场景覆盖的监控部署,尽可能地

在故障出现的第一时间通知到相关处理的人员进行应急恢复。故障的监控发现率是衡量风险衡量风险防控能力的关键指标。为保证故障发现率,故障场景监控覆盖率建议维持在95%以上。监控覆盖可以综合参考监控的对象和方式,将监控划分为4层:


基础设施监控:主要关注机房、网络等基础设施的运行情况。

系统应用监控:主要关注实例、中间件等基础服务的运行情况。

业务监控:通过采集应用程序中的业务状态数据,如接口的请求次数、成功率和

响应时长等,产出业务级别的监控指标,以数据反映业务健康状况,从而完成对业务的监控。

用户反馈监控:主要从舆情、客诉等反向收集用户对功能可用性的反馈,作为一

个兜底监控。


监控有效覆盖后,随着业务复杂度的提升,告警会越来越多,如何将海量的监控

进行有效整合和有效通知,就成为了另一个复杂的问题。做法是将监控项和前面的故障等级定义场景进行关联,将各类重要的监控能力都聚合到监控中台,由负责故障处理人员的7*24监控中心来对达到故障等级的告警进行故障通知和升级。最终目标是得到多维度高度收敛的监控信息,以达到故障快速发现的目的。

相关文章
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
1395 2
|
运维 监控 测试技术
自动化运维实践:CI/CD流程详解
【6月更文挑战第30天】CI/CD实践推动软件开发自动化,通过持续集成确保代码质量,自动部署提升交付速度。核心流程包括:代码管理(Git等)、自动化构建与测试、代码审查、部署。关键点涉及选择工具、测试覆盖率、监控及团队协作。采用CI/CD能减少错误,但需应对挑战,如工具选型、全面测试和团队沟通。
4762 2
|
12月前
|
安全 网络安全 数据中心
服务器托管适用什么场景?
在数字化时代,服务器托管对企业运营至关重要。本文解析了五种常见托管方式:共享托管经济实惠,适合小型网站;VPS灵活可控,适合中小型企业;专用服务器性能卓越,适合大型应用;云托管灵活扩展,适应现代需求;托管式服务外包管理,省心省力。选择时需综合考虑预算、技术能力及性能要求,找到最佳解决方案。
489 0
|
运维 网络安全 Python
自动化运维:使用Ansible实现批量服务器配置
在快速迭代的IT环境中,高效、可靠的服务器管理变得至关重要。本文将介绍如何使用Ansible这一强大的自动化工具,来简化和加速批量服务器配置过程。我们将从基础开始,逐步深入到更复杂的应用场景,确保即使是新手也能跟上节奏。文章将不包含代码示例,而是通过清晰的步骤和逻辑结构,引导读者理解自动化运维的核心概念及其在实际操作中的应用。
|
算法 图形学
2023年第三届长三角高校数学建模竞赛】A 题 快递包裹装箱优化问题 详细数学建模过程
本文详细介绍了2023年第三届长三角高校数学建模竞赛A题的详细数学建模过程,探讨了快递包裹装箱优化问题,提出了三维装箱算法、目标规划和优化策略,旨在减少耗材使用量和优化耗材总体积,同时考虑了货物和耗材的柔性属性。
461 0
2023年第三届长三角高校数学建模竞赛】A 题 快递包裹装箱优化问题 详细数学建模过程
|
消息中间件 物联网 API
消息队列 MQ使用问题之如何在物联网项目中搭配使用 MQTT、AMQP 与 RabbitMQ
消息队列(MQ)是一种用于异步通信和解耦的应用程序间消息传递的服务,广泛应用于分布式系统中。针对不同的MQ产品,如阿里云的RocketMQ、RabbitMQ等,它们在实现上述场景时可能会有不同的特性和优势,比如RocketMQ强调高吞吐量、低延迟和高可用性,适合大规模分布式系统;而RabbitMQ则以其灵活的路由规则和丰富的协议支持受到青睐。下面是一些常见的消息队列MQ产品的使用场景合集,这些场景涵盖了多种行业和业务需求。
|
安全
tp5使用ueditor请求后台配置项http错误,上传功能将不能正常使用!
tp5使用ueditor请求后台配置项http错误,上传功能将不能正常使用!
1027 0
|
运维 监控
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
604 0
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
651 0
|
jenkins Java Linux
手把手带你linux下搭建jenkins
手把手带你linux下搭建jenkins
340 1