《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障

简介: 《云上业务稳定性保障实践白皮书》——二. 理论概念——2.2 故障

2.2 故障


ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的

配置项失效也是一种故障。

以阿里巴巴经济体为例,其故障定义为除用户方环境或者用户自身操作引起的情

况外,其他无论什么原因导致的服务中断、服务品质下降或者用户服务体验下降的事件都为故障。

无论理论还是实践,均证明故障只要有发生的可能,它总会发生。所以故障管理

是很有必要的。故障管理是围绕故障全生命周期采取的一系列控制流程,包括故障等级定义、故障发现、故障响应、故障定位、故障恢复、故障复盘及持续改进(含故障演练)。故障管理的目标是预防可预知的问题,快速恢复不能预知的问题,以及确保已发生的问题不再重复发生。这也是保障、提升业务稳定性的有效手段,通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,来降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。

相关文章
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
288 0
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
377 0
|
监控
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性
323 0
|
缓存 监控 容灾
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)
186 0
|
缓存 监控 网络协议
云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(上)
云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(上)
244 0
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.3 名词解释
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.3 名词解释
100 0
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
194 0
|
运维 监控 中间件
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现
204 0
|
弹性计算 数据安全/隐私保护
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1游戏业务稳定性保障
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1游戏业务稳定性保障
144 0
|
弹性计算 运维 Kubernetes
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.2 游戏容器化部署最佳实践(1)
186 0