分布式系统架构4：容错设计模式-阿里云开发者社区

分布式系统架构4：容错设计模式

2024-12-20 311

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这是小卷对分布式系统架构学习的第4篇文章，重点介绍了三种常见的容错设计模式：断路器模式、舱壁隔离模式和重试模式。断路器模式防止服务故障蔓延，舱壁隔离模式通过资源隔离避免全局影响，重试模式提升短期故障下的调用成功率。文章还对比了这些模式的优缺点及适用场景，并解释了服务熔断与服务降级的区别。尽管技术文章阅读量不高，但小卷坚持每日更新以促进个人成长。

这是小卷对分布式系统架构学习的第4篇文章，虽然知道大家都不喜欢看纯技术文章，写了也没多少阅读量，但是为了个人要成长，小卷最近每天都会更新分布式的文章

1.概念

容错策略，指的是“面对故障，我们该做些什么”；而容错设计模式，指的是“要实现某种容错策略，我们该如何去做”。

上一篇已经讲了7种容错策略，为了实现各种策略，开发总结了一些容错设计模式，包括微服务常见的：断路器模式、舱壁隔离模式、超时重试模式。

2.断路器模式

概念：借鉴了电路中的断路器工作原理，用于防止一个子系统的故障蔓延到整个系统。通过在服务之间增加一个断路器机制，当服务调用频繁失败时，断路器会切换到OPEN状态，拒绝进一步调用，避免浪费资源。并且断路器会定期尝试重连目标服务，如果服务恢复正常，则恢复调用。

断路器本质是一种快速失败策略的实现方式

容错设计模式1.png

工作原理

断路器有三种状态：

关闭状态 (Closed)：断路器关闭，请求正常调用。如果调用失败次数超过设定阈值，断路器会切换到打开状态。
打开状态 (Open)：阻断调用请求，直接返回失败。此状态下，系统不会继续调用目标服务，避免资源浪费。
半开状态 (Half-Open)：是一种中间状态，断路器需要带有自动故障恢复功能，进入OPEN状态一段时间后，断路器会尝试放行一次请求测试服务是否恢复。如果成功，切换回关闭状态；否则，保持打开状态。

容错设计模式2.png

示例：

Netflix Hystrix可以设置一段时间内请求故障率达到阈值（10秒内20个请求，失败率50%），断路器的状态就会变为OPEN

3.舱壁隔离模式（服务隔离）

概念：灵感来源于船舶设计，通过为每个模块或服务分配独立的资源池，防止一个模块的故障或资源耗尽影响整个系统。其核心思想是“隔离问题”。简而言之就是：避免某一个远程服务的局部失败影响到全局

具体场景

主流的网络访问大多是基于 TPR 并发模型（Thread per Request）来实现的，只要请求一直不结束（无论是以成功结束还是以失败结束），就要一直占用着某个线程不能释放。

比如：“服务 I”发生了超时，假设平均 1 秒钟内会调用这个服务 50 次，就意味着该服务如果长时间不结束的话，每秒会有 50 条用户线程被阻塞。

Tomcat默认HTTP超时时间是20秒，20秒内会阻塞1000条用户线程，而java应用的线程池通常最大设置为200~400，且Java本身是将线程映射为操作系统内核线程来实现的语言环境。这就意味着从外部看，服务已经全面瘫痪了。不仅是服务1，而是整个Tomcat服务。

容错设计模式3.png

工作原理

解决办法就是为每个服务设立单独的线程池，这样服务1即使阻塞了，比如阻塞5条用户线程，也不影响全局。

容错设计模式4.png

应用案例：阿里内部RPC中间件的HSF线程池隔离

适用场景：系统中存在多个高并发调用的服务，需根据用户等级、用户VIP、用户来访区域等因素隔离到不同的服务实例的场景。

4.重试模式

概念：适用于解决系统的瞬间故障，如：网络抖动、服务临时过载问题。通过设定调用超时时间和重试次数，在调用失败后自动重试，提升服务调用成功率。

使用重试模式时，实现很简单，需避免滥用，适用场景的条件：

只在主路关键服务上进行同步重试
仅瞬间故障引起的失败进行重试
仅对幂等性服务进行重试
重试需要有明确终止条件

5.容错设计模式对比

模式	优点	缺点	适用场景
断路器模式	防止服务雪崩，保护系统稳定性	服务恢复检测需要额外开销	服务调用失败率高，可能影响全局性能的场景
舱壁隔离模式	故障隔离，防止系统资源被耗尽	增加系统设计复杂性	多模块、多服务共享资源的场景
重试模式	提高服务调用成功率，适应短期故障	可能增加系统负载，不适合高实时性场景	临时网络波动、偶发性调用失败

其他问题

1. 服务熔断和服务降级之间的联系与差别？

服务熔断：一种保护机制，用于防止一个服务的连续失败导致整个系统的崩溃，属于一种快速失败的容错策略的实现方法。当失败率达到一定阈值时，断路器会“熔断”请求，直接返回错误响应或默认值

服务降级：通过降低非核心服务的优先级、简化服务逻辑或直接返回备用响应，保证核心服务和主要业务功能的稳定性。通常是基于业务优先级主动触发的

维度	服务熔断	服务降级
触发方式	被动触发：根据失败率、超时或异常次数达到阈值后触发	主动触发：根据系统压力、业务优先级或异常情况手动触发
作用范围	面向单个服务的调用链，避免单点问题影响全局	面向全局系统，通过调整业务优先级释放资源
目标	保护目标服务及调用方的资源，避免雪崩效应	保护核心服务的稳定性，尽量降低对用户的影响
恢复机制	自动恢复：断路器从打开到半开，再到关闭状态逐步恢复	手动恢复：根据系统压力或异常消失后调整业务优先级
实现复杂度	需要监控调用失败率、超时等数据并动态调整	需要结合业务场景设计具体的降级策略
典型场景	下游服务超时、故障，调用方通过熔断保护自己	高并发、大流量或下游服务不可用时主动释放资源

分布式系统架构4：容错设计模式

1.概念

2.断路器模式

工作原理

3.舱壁隔离模式（服务隔离）

具体场景

工作原理

4.重试模式

5.容错设计模式对比

其他问题

1. 服务熔断和服务降级之间的联系与差别？

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

分布式系统架构4：容错设计模式

1.概念

2.断路器模式

工作原理

3.舱壁隔离模式（服务隔离）

具体场景

工作原理

4.重试模式

5.容错设计模式对比

其他问题

1. 服务熔断和服务降级之间的联系与差别？

热门文章

最新文章

相关课程

相关电子书