分布式系统架构4:容错设计模式

简介: 这是小卷对分布式系统架构学习的第4篇文章,重点介绍了三种常见的容错设计模式:断路器模式、舱壁隔离模式和重试模式。断路器模式防止服务故障蔓延,舱壁隔离模式通过资源隔离避免全局影响,重试模式提升短期故障下的调用成功率。文章还对比了这些模式的优缺点及适用场景,并解释了服务熔断与服务降级的区别。尽管技术文章阅读量不高,但小卷坚持每日更新以促进个人成长。

这是小卷对分布式系统架构学习的第4篇文章,虽然知道大家都不喜欢看纯技术文章,写了也没多少阅读量,但是为了个人要成长,小卷最近每天都会更新分布式的文章

1.概念

容错策略,指的是“面对故障,我们该做些什么”;而容错设计模式,指的是“要实现某种容错策略,我们该如何去做”。

上一篇已经讲了7种容错策略,为了实现各种策略,开发总结了一些容错设计模式,包括微服务常见的:断路器模式、舱壁隔离模式、超时重试模式。

2.断路器模式

概念:借鉴了电路中的断路器工作原理,用于防止一个子系统的故障蔓延到整个系统。通过在服务之间增加一个断路器机制,当服务调用频繁失败时,断路器会切换到OPEN状态,拒绝进一步调用,避免浪费资源。并且断路器会定期尝试重连目标服务,如果服务恢复正常,则恢复调用。

断路器本质是一种快速失败策略的实现方式

容错设计模式1.png

工作原理

断路器有三种状态:

  • 关闭状态 (Closed):断路器关闭,请求正常调用。如果调用失败次数超过设定阈值,断路器会切换到打开状态。

  • 打开状态 (Open):阻断调用请求,直接返回失败。此状态下,系统不会继续调用目标服务,避免资源浪费。

  • 半开状态 (Half-Open):是一种中间状态,断路器需要带有自动故障恢复功能,进入OPEN状态一段时间后,断路器会尝试放行一次请求测试服务是否恢复。如果成功,切换回关闭状态;否则,保持打开状态。

容错设计模式2.png

示例:

Netflix Hystrix可以设置一段时间内请求故障率达到阈值(10秒内20个请求,失败率50%),断路器的状态就会变为OPEN

3.舱壁隔离模式(服务隔离)

概念:灵感来源于船舶设计,通过为每个模块或服务分配独立的资源池,防止一个模块的故障或资源耗尽影响整个系统。其核心思想是“隔离问题”。简而言之就是:避免某一个远程服务的局部失败影响到全局

具体场景

主流的网络访问大多是基于 TPR 并发模型(Thread per Request)来实现的,只要请求一直不结束(无论是以成功结束还是以失败结束),就要一直占用着某个线程不能释放。

比如:“服务 I”发生了超时,假设平均 1 秒钟内会调用这个服务 50 次,就意味着该服务如果长时间不结束的话,每秒会有 50 条用户线程被阻塞。

Tomcat默认HTTP超时时间是20秒,20秒内会阻塞1000条用户线程,而java应用的线程池通常最大设置为200~400,且Java本身是将线程映射为操作系统内核线程来实现的语言环境。这就意味着从外部看,服务已经全面瘫痪了。不仅是服务1,而是整个Tomcat服务。

容错设计模式3.png

工作原理

解决办法就是为每个服务设立单独的线程池,这样服务1即使阻塞了,比如阻塞5条用户线程,也不影响全局。

容错设计模式4.png

应用案例:阿里内部RPC中间件的HSF线程池隔离

适用场景:系统中存在多个高并发调用的服务,需根据用户等级、用户VIP、用户来访区域等因素隔离到不同的服务实例的场景。

4.重试模式

概念:适用于解决系统的瞬间故障,如:网络抖动、服务临时过载问题。通过设定调用超时时间和重试次数,在调用失败后自动重试,提升服务调用成功率。

使用重试模式时,实现很简单,需避免滥用,适用场景的条件:

  • 只在主路关键服务上进行同步重试
  • 仅瞬间故障引起的失败进行重试
  • 仅对幂等性服务进行重试
  • 重试需要有明确终止条件

5.容错设计模式对比

模式 优点 缺点 适用场景
断路器模式 防止服务雪崩,保护系统稳定性 服务恢复检测需要额外开销 服务调用失败率高,可能影响全局性能的场景
舱壁隔离模式 故障隔离,防止系统资源被耗尽 增加系统设计复杂性 多模块、多服务共享资源的场景
重试模式 提高服务调用成功率,适应短期故障 可能增加系统负载,不适合高实时性场景 临时网络波动、偶发性调用失败

其他问题

1. 服务熔断和服务降级之间的联系与差别?

服务熔断:一种保护机制,用于防止一个服务的连续失败导致整个系统的崩溃,属于一种快速失败的容错策略的实现方法。当失败率达到一定阈值时,断路器会“熔断”请求,直接返回错误响应或默认值

服务降级:通过降低非核心服务的优先级、简化服务逻辑或直接返回备用响应,保证核心服务和主要业务功能的稳定性。通常是基于业务优先级主动触发的

维度 服务熔断 服务降级
触发方式 被动触发:根据失败率、超时或异常次数达到阈值后触发 主动触发:根据系统压力、业务优先级或异常情况手动触发
作用范围 面向单个服务的调用链,避免单点问题影响全局 面向全局系统,通过调整业务优先级释放资源
目标 保护目标服务及调用方的资源,避免雪崩效应 保护核心服务的稳定性,尽量降低对用户的影响
恢复机制 自动恢复:断路器从打开到半开,再到关闭状态逐步恢复 手动恢复:根据系统压力或异常消失后调整业务优先级
实现复杂度 需要监控调用失败率、超时等数据并动态调整 需要结合业务场景设计具体的降级策略
典型场景 下游服务超时、故障,调用方通过熔断保护自己 高并发、大流量或下游服务不可用时主动释放资源
相关文章
|
1天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
|
9天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
11天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8812 20
|
14天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4746 12
资料合集|Flink Forward Asia 2024 上海站
|
15天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
22天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
10天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
10天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
867 57

热门文章

最新文章