《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障

简介: 《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障

2.2 故障


ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的

配置项失效也是一种故障。

以阿里巴巴经济体为例,其故障定义为除用户方环境或者用户自身操作引起的情

况外,其他无论什么原因导致的服务中断、服务品质下降或者用户服务体验下降的事件都为故障。

无论理论还是实践,均证明故障只要有发生的可能,它总会发生。所以故障管理

是很有必要的。故障管理是围绕故障全生命周期采取的一系列控制流程,包括故障等级定义、故障发现、故障响应、故障定位、故障恢复、故障复盘及持续改进(含故障演练)。故障管理的目标是预防可预知的问题,快速恢复不能预知的问题,以及确保已发生的问题不再重复发生。这也是保障、提升业务稳定性的有效手段,通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,来降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。

相关文章
|
缓存 监控 Kubernetes
Spring Cloud 微服务集群 Monitor 监控中心| 学习笔记
快速学习 Spring Cloud 微服务集群 Monitor 监控中心。
 Spring Cloud 微服务集群 Monitor 监控中心| 学习笔记
|
Rust 算法 网络安全
【密码学】一文读懂CMAC
介于上一篇文章比较水,然后这个和上一篇也比较相似,CMAC是为了解决DAA当中安全性不足的问题而出现的,这个算法一共有三个密钥,K, K1, K2, 其中K1和K2可以由K导出,接下来就来一起看一下CMAC的具体过程吧,这一篇文章其实也不长。
5382 0
【密码学】一文读懂CMAC
|
11月前
|
安全 Java
【Java并发】【ArrayBlockingQueue】适合初学体质的ArrayBlockingQueue入门
什么是ArrayBlockingQueue ArrayBlockingQueue是 Java 并发编程中一个基于数组实现的有界阻塞队列,属于 java.util.concurrent 包,实现了 Bl...
302 6
【Java并发】【ArrayBlockingQueue】适合初学体质的ArrayBlockingQueue入门
|
SQL 缓存 NoSQL
MySQL高级第四篇(共四篇)之MySQL常用工具、MySQL日志、MySQL主从复制、MySQL读写分离、MySQL性能优化(二)
复制是指将主数据库的DDL 和 DML 操作通过二进制日志传到从库服务器中,然后在从库上对这些日志重新执行(也叫重做),从而使得从库和主库的数据保持同步。
429 0
|
10月前
|
Ubuntu 网络协议 应用服务中间件
在 Ubuntu 上安装 Nginx
在 Ubuntu 上安装和配置 Nginx 非常简单。首先更新系统包,然后通过 `apt` 安装 Nginx,检查服务状态并配置防火墙规则。访问服务器 IP 测试是否成功显示默认页面。还可管理服务、创建虚拟主机及排查常见问题,适合新手快速上手部署高性能 Web 服务。
1245 0
|
SQL Java 数据库连接
Javaweb之SpringBootWeb案例分页插件的详细解析
Javaweb之SpringBootWeb案例分页插件的详细解析
186 0
|
域名解析 弹性计算 应用服务中间件
基于nginx反向代理实现OSS固定域名IP访问
本文基于阿里云OSS手册:https://help.aliyun.com/zh/oss/use-cases/use-an-ecs-instance-that-runs-centos-to-configure-a-reverse-proxy-for-access-to-oss,继续深入讨论如何利用nginx反向代理,实现固定的IP/域名访问OSS bucket。官方文档能够解决大部分的反向代理固定IP访问oss bucket的场景,但是对于必须使用域名作为endpoint的系统,会出现signatrue鉴权问题。本文继续在官方文档的基础上,将反向代理需要域名作为endpoint的场景补齐方案。
|
消息中间件 监控 Java
系统稳定性保障设计总结和思考
系统稳定性保障设计总结和思考
878 0
|
XML Dubbo Java
Dubbo - 配置示例使用详解
Dubbo - 配置示例使用详解
773 0
|
Linux
Linux系统查看文件大小
在 Linux 操作系统中,经常需要检查文件的大小,文件实际的大小和文件占用磁盘的大小往往是不一致的,下面梳理记录集中常见的查看文件大小的方法。
477 0