高可用架构设计

一、体系总览与核心底层逻辑

1.1 核心定义与目标

高可用架构（High Availability, HA）是一套通过冗余、容错、隔离、自动化等技术手段，最大化系统服务持续可用时长、最小化故障停机损失，保障业务连续性与数据可靠性的完整架构体系。
核心目标可拆解为3个层级：

基础层：消除单点故障，应对硬件/软件/网络的常规故障
进阶层：控制故障爆炸半径，避免级联故障，实现故障自愈
顶级层：应对地域级灾难，实现业务无感知切换，趋近于零停机

1.2 体系核心设计原则（贯穿全体系的底层逻辑）

冗余原则：所有核心节点无单点，通过多副本/多集群实现能力冗余，是高可用的基石
隔离原则：最小化故障域，限制故障影响范围，杜绝级联故障，是高可用的核心屏障
容错原则：系统具备故障容忍能力，局部故障不影响整体服务可用性
自动化原则：故障检测、切换、自愈全流程自动化，避免人工操作的延迟与失误
可观测原则：全链路可监控、可追踪、可告警，是故障快速定位与恢复的前提
平衡原则：在可用性、性能、成本、复杂度之间找到最优解，避免过度设计

二、高可用量化标尺：SLA可用性指标体系

SLA是整个高可用架构的顶层设计，所有技术方案均围绕SLA目标展开，是高可用能力的唯一量化标准。

2.1 核心概念厘清：SLA、SLO、SLI

术语	全称	核心定义	体系定位
SLI	服务水平指标	系统服务能力的可直接采集的客观量化数据	度量基础
SLO	服务水平目标	基于SLI设定的、固定周期内必须达成的可用性目标值	核心目标
SLA	服务水平协议	服务提供方与消费方签订的、包含SLO承诺与违约赔付条款的正式契约	最终约束

2.2 可用性核心量化公式与等级划分

2.2.1 核心计算公式

系统可用性 = (系统总运行时长 - 计划外故障停机时长) / 系统总运行时长 × 100%

关键说明：计划内维护（版本升级、架构调整）通常不计入故障停机时长，需在SLA中明确统计口径，避免歧义。

2.2.2 业界通用“N个9”可用性等级标准

可用性等级	年允许计划外停机时长	月允许停机时长	日允许停机时长	典型适用业务场景
2个9（99%）	3.65天	7.2小时	14.4分钟	非核心内部系统、离线业务、测试环境
3个9（99.9%）	8.76小时	43.2分钟	1.44分钟	企业内部核心系统、非交易型ToB服务
4个9（99.99%）	52.56分钟	4.32分钟	8.64秒	互联网核心业务、电商、金融非交易系统、云服务基础产品
5个9（99.999%）	5.26分钟	25.9秒	0.86秒	金融核心交易系统、支付清算、电信核心网、工业控制系统
6个9（99.9999%）	31.5秒	2.59秒	0.086秒	国家级关键基础设施、航空航天、核电控制系统

2.3 核心SLI指标维度（不止“不宕机”）

高可用不仅是服务不中断，更要保障服务质量达标，核心SLI维度包括：

可用性指标：服务正常响应率、请求成功率、节点存活时长占比
性能指标：平均响应时延、P95/P99时延、峰值吞吐量
错误指标：5xx错误率、4xx异常占比、超时请求占比
数据指标：数据一致性达标率、数据丢失率、备份恢复成功率

2.4 SLA落地关键规范

明确故障停机的判定标准、统计范围、排除项，避免口径歧义
建立分级SLA体系：按业务核心度拆分核心/非核心业务，设定差异化SLO，平衡成本与可用性
明确违约赔付机制，是SLA生效的核心约束
建立周期复盘机制，按月/季度复盘SLO达成情况，通过故障复盘持续优化架构

三、高可用基础基石：集群与副本技术

集群与副本是高可用架构最基础的冗余实现，是所有上层高可用方案的底层支撑，核心解决单点故障问题。

3.1 集群技术体系

3.1.1 核心定义与价值

集群是一组相互独立、通过网络互联的服务器节点，协同对外提供统一服务，对外表现为一个整体。
核心价值：

消除单点故障：单节点故障不影响集群整体服务能力
水平扩展：通过增加节点线性提升系统吞吐量与性能
负载均衡：将流量均匀分发到健康节点，避免节点过载
故障自愈：自动剔除故障节点，自动恢复节点服务能力

3.1.2 集群核心分类与适用场景

集群类型	核心定位	典型产品/组件	核心高可用能力
计算服务集群	承载业务逻辑、API服务、微服务应用	K8s集群、Spring Cloud集群、Web服务器集群	无状态服务弹性扩缩容、故障自动重建、流量自动切换
中间件集群	承载消息、缓存、注册中心等基础组件	Kafka集群、Redis集群、RocketMQ集群、Nacos集群	副本同步、leader自动选举、故障节点自动下线
存储集群	承载结构化/非结构化数据存储	MySQL集群、PostgreSQL集群、Ceph/HDFS分布式存储	数据多副本冗余、故障自动切换、数据一致性保障
算力集群	承载AI、大数据、高性能计算任务	Hadoop集群、GPU集群、Spark集群	任务容错、节点故障自动重调度、数据分片冗余

3.1.3 集群高可用核心组件

健康检查模块：TCP/HTTP/业务自定义探测，是故障识别的核心
负载均衡器（LB）：四层LB（LVS、HAProxy）、七层LB（Nginx、Ingress），实现流量分发与故障节点自动剔除
服务注册与发现中心：Nacos、Consul、etcd，管理集群节点元数据，实现服务地址动态更新
分布式协调组件：etcd、ZooKeeper，基于共识协议实现集群leader选举、元数据一致性保障
集群调度器：K8s Scheduler、YARN，负责资源调度与故障节点任务重调度

3.2 副本技术体系

副本是集群的核心冗余单元，指同一份数据/服务的多个冗余拷贝，核心解决数据丢失与服务中断双重问题。

3.2.1 副本核心作用

数据冗余：避免单节点硬件故障导致的数据不可逆丢失
故障切换：主副本故障时，从副本可快速升级为主副本，实现服务无中断
读写分离：读请求分发到从副本，提升系统读吞吐量，降低主副本压力
就近访问：多地域部署副本，实现用户就近接入，降低访问延迟

3.2.2 副本核心类型与一致性保障

副本类型	一致性模型	核心共识协议	核心特点	适用场景
强一致副本	线性一致性/强一致性	Paxos、Raft、ZAB	写操作需多数副本确认后返回，任意时刻所有副本数据完全一致	金融交易、元数据管理、分布式锁、核心数据存储
最终一致副本	最终一致性	Gossip协议、异步复制	写操作仅需主副本确认即可返回，从副本异步同步，短时间内存在数据延迟	互联网非交易业务、缓存、内容分发、日志系统
只读副本	只读一致性	异步/半同步复制	仅提供读服务，不参与写操作与leader选举，数据从主副本同步	读多写少场景、报表分析、数据备份、读写分离

3.2.3 副本部署核心策略与设计原则

分级部署策略
- 同机房多机架部署：副本分散在不同机架，避免单机架掉电/网络故障导致全副本不可用
- 同城多可用区（AZ）部署：副本分散在同城物理隔离的机房，应对单机房火灾、断电故障
- 异地多地域部署：副本分散在不同城市，应对地震、洪水等地区级灾难，是异地多活的基础
副本数设计黄金原则
- 强一致集群：副本数推荐为奇数（3、5、7），可容忍 (N-1)/2 个节点故障（3副本容忍1个故障，5副本容忍2个故障）
- 最终一致集群：副本数根据业务可靠性需求设定，通用场景3副本，核心数据可提升至5副本

3.2.4 副本与集群的协同机制

自动leader选举：主副本故障时，集群通过共识协议自动选举新主副本，无需人工干预
副本自动重建：副本故障不可恢复时，集群自动在健康节点重建新副本，恢复冗余能力
数据自动均衡：集群自动调整副本分布，避免节点数据量不均导致的负载倾斜

四、高可用核心屏障：故障隔离体系

故障隔离的核心目标是控制故障爆炸半径，避免局部故障扩散为全系统级联故障，是高可用架构的“防火墙”，实现从“被动容错”到“主动防控”的升级。

4.1 故障隔离核心设计原则

最小故障域原则：将系统拆分为尽可能小的、相互隔离的故障域，单个故障域故障不影响其他域
无共享原则：故障域之间尽可能减少共享依赖，避免共享资源成为故障扩散通道
权责对等原则：业务核心度越高，故障隔离等级越高，隔离粒度越细
故障闭环原则：每个故障域具备独立的容错、降级、自愈能力，实现故障闭环处理

4.2 全维度故障隔离方案体系

4.2.1 架构层面隔离：从根源拆分故障域

业务域隔离（微服务/DDD隔离）
基于DDD限界上下文拆分微服务，每个微服务对应独立业务域，独立部署运维；核心业务与非核心业务严格拆分，避免非核心业务故障影响核心链路。
多租户隔离
- 物理隔离：不同租户使用独立服务器、数据库、集群，隔离等级最高，适用于金融、政务场景
- 逻辑隔离：同一集群内通过租户ID实现数据隔离，共享硬件资源，成本更低，适用于通用SaaS场景
- 混合隔离：核心租户物理隔离，普通租户逻辑隔离，平衡成本与可用性

4.2.2 部署层面隔离：物理/运行环境隔离

基础设施隔离：地域级/可用区/机房/机架多级隔离，核心服务跨可用区部署，避免单点硬件故障
运行环境隔离
- 资源隔离：通过KVM、Docker、K8s实现进程级隔离，限制CPU、内存、IO资源，避免服务间资源争抢
- 线程池隔离：为不同依赖服务分配独立线程池，避免单个依赖故障耗尽整个服务的线程资源（典型方案Hystrix、Sentinel）
- 进程隔离：不同业务模块拆分为独立进程，单个进程崩溃不影响其他进程

4.2.3 流量层面隔离：避免故障流量扩散

流量分片隔离：按用户ID/地域/业务类型对流量分片，不同分片路由到独立集群/单元，单个分片故障不影响其他分片
发布流程隔离
- 灰度/金丝雀发布：小流量验证新版本，无问题后全量发布，避免全量故障
- 蓝绿部署：维护两套完全一致的集群，新版本验证后一次性切流，故障可秒级回滚
流量管控隔离
- 限流：为每个服务/接口/调用方设置独立限流阈值，避免流量突增打垮服务
- 熔断：下游服务故障时快速失败，不再发起请求，避免故障向上游扩散
- 降级：非核心业务故障时，自动关闭非核心功能/返回缓存数据，保障核心业务资源充足

4.2.4 数据层面隔离：避免数据故障扩散

分库分表隔离：按业务域/用户ID分库分表，单个库/表故障不影响其他库表
读写分离隔离：读请求路由到只读副本，写请求路由到主库，避免读压力影响写服务
冷热数据隔离：热数据存高性能存储，冷数据存离线存储，避免冷数据查询影响热服务
缓存与数据库隔离：缓存故障时，通过熔断、限流避免缓存穿透打垮数据库

4.3 故障隔离验证机制：混沌工程

通过主动注入故障（节点宕机、网络延迟、服务熔断），验证故障隔离体系的有效性，确保故障影响范围符合预期，杜绝级联故障。

五、高可用兜底保障：容灾备份体系

容灾备份是应对极端故障（机房级/地域级灾难、数据误删、勒索病毒等）的兜底方案，是高可用架构的最后一道防线，核心解决极端场景下业务不中断、数据不丢失的问题。

5.1 核心概念厘清：容灾 VS 备份

维度	容灾（Disaster Recovery, DR）	备份（Backup）
核心目标	保障业务连续性，应对服务中断	保障数据可靠性，应对数据丢失
核心场景	机房断电、火灾、地震、地域级网络中断	数据误删、勒索病毒、硬件故障导致的数据损坏
核心指标	RTO（恢复时间目标）	RPO（恢复点目标）
核心手段	多集群、多地域部署、业务切换	数据拷贝、快照、离线存储

5.2 容灾核心量化指标

RTO（恢复时间目标）：故障发生后，系统从停止服务到恢复正常的最长允许时间，RTO越短，业务中断时间越短
RPO（恢复点目标）：故障发生后，系统允许丢失的最长数据时间窗口，RPO越短，数据丢失越少

高可用架构的终极目标是 RTO→0、RPO→0，不同容灾方案的核心差异就是RTO与RPO的达标能力。

5.3 容灾体系等级与部署模式

5.3.1 国标容灾等级（GB/T 20988-2007）

将信息系统容灾能力分为6个等级，从低到高覆盖从数据备份到异地实时双活的全场景：

T1级：基本级，离线数据异地备份，无备用机房，RTO≥7天，RPO≥1天
T2级：备用场地支持级，离线备份+备用机房，RTO≥36小时，RPO≥1天
T3级：电子传输级，在线数据备份+异地备用机房，RTO≥12小时，RPO≥数小时
T4级：活动备份级，同城双活+数据实时备份，RTO≥2小时，RPO≥数分钟
T5级：实时数据备份级，异地数据实时同步，RTO≥30分钟，RPO趋近于0
T6级：零数据丢失级，异地双活/多活，业务无感知切换，RTO→0，RPO→0

5.3.2 业界通用容灾部署模式（从低到高）

容灾模式	核心架构	RTO/RPO	核心优点	核心缺点	适用场景
冷备	主集群+异地离线备份，无备用集群，故障后人工重建	RTO：天级，RPO：天级	成本极低，架构简单	恢复时间长，数据丢失量大	非核心业务、离线归档数据
温备	主集群+异地备用集群，备用集群仅同步数据，故障后手动切换	RTO：小时级，RPO：分钟级	成本较低，复杂度低	切换需人工干预，资源利用率低	企业内部核心系统、非实时业务
热备	主集群+同城备用集群，数据实时同步，备用集群承担读流量，故障自动切换	RTO：分钟级，RPO：秒级	切换自动化，资源利用率较高	无法应对地域级灾难	互联网核心业务、金融非核心系统
同城双活	同城两个可用区集群同时对外服务，数据实时同步，故障自动切流	RTO：秒级，RPO趋近于0	资源利用率100%，故障无感知	无法应对地域级灾难	延迟敏感的核心交易、支付系统
异地双活/多活	跨地域多个集群同时对外服务，数据同步，故障全局切流	RTO→0，RPO→0	应对地域级灾难，用户就近访问	架构复杂度高，跨地域一致性挑战大	超大规模互联网业务、全国性金融服务

5.4 备份体系核心规范与最佳实践

5.4.1 备份核心类型

全量备份：完整拷贝所有数据，恢复速度快，占用空间大，备份时间长
增量备份：仅备份上次备份后变化的数据，占用空间小，恢复需依赖全量+所有增量备份
差异备份：仅备份上次全量备份后变化的数据，恢复速度快于增量备份，占用空间介于两者之间

5.4.2 业界黄金法则：3-2-1备份原则

全球公认的备份最佳实践，可应对99%以上的数据丢失场景：

3份数据副本：除原始数据外，至少保留2份备份副本，总计3份数据
2种存储介质：数据存储在至少2种不同物理介质上（硬盘、磁带、云存储），避免单一介质故障
1份异地离线备份：至少保留1份备份副本在异地离线环境，应对地域级灾难、勒索病毒攻击

5.4.3 备份落地关键规范

按数据核心度制定差异化备份周期，核心数据每日全量+每小时增量
所有备份数据必须加密存储，避免数据泄露
定期执行备份恢复演练，验证备份数据的可恢复性，杜绝“备份了但恢复不了”的致命问题
配合快照技术实现热备份，避免备份过程中业务停机
设定备份数据生命周期，定期清理过期备份，平衡存储成本与可靠性

六、高可用高阶方案：异地多活架构

异地多活是高可用架构的高阶形态，是集群、副本、容灾、隔离技术的集大成者，核心突破单地域物理限制，实现地域级故障的无感知切换，同时提升全国/全球用户的访问体验。

6.1 核心定义与架构演进路径

6.1.1 核心定义

异地多活指跨地域部署多个业务单元（集群），每个单元都能同时对外提供服务（“活”的，而非冷备/温备）；任意一个/多个单元故障时，其他单元可快速接管故障单元的所有流量，实现业务无感知恢复，RTO与RPO趋近于0。

6.1.2 架构演进路径

单机房部署→2. 同城双活→3. 两地三中心→4. 异地双活→5. 异地多活（业界最高阶形态）

6.2 异地多活核心架构模式：单元化（SET化）部署

单元化是异地多活的核心前提，是实现跨地域高可用的核心设计。

6.2.1 单元化核心定义

将整个系统拆分为多个独立、闭环的业务单元（SET），每个单元具备完整的服务能力，可独立对外提供服务，单元之间尽可能减少跨单元调用，每个单元只负责一部分用户的业务请求。
核心特点：

闭环性：用户请求在单元内闭环完成，无需跨单元调用，规避跨地域延迟
对等性：所有单元的架构、能力完全一致，可随时扩容、缩容、切换流量
隔离性：单元之间完全隔离，单个单元故障不影响其他单元
路由确定性：同一个用户的请求，始终路由到同一个单元，避免跨单元数据不一致

6.2.2 单元化核心分类

用户维度单元化：按用户ID哈希/尾号/地域分片，每个单元负责固定用户群体，是最常用方案（阿里电商单元化）
业务维度单元化：按业务域拆分单元，每个单元负责一个完整业务域，适用于链路独立的场景
地域维度单元化：按用户地域拆分单元，每个单元负责对应地域的用户请求，实现就近接入

6.3 异地多活核心技术体系

6.3.1 全局流量调度体系

异地多活的“入口大脑”，实现流量精准路由与故障自动切换，核心组件包括：

GSLB（全局负载均衡）：基于DNS智能解析、BGP路由，实现用户就近接入，故障时自动切换流量到健康单元
HTTPDNS：替代传统DNS，避免DNS劫持、解析延迟，实现更精准的流量调度
全局接入层：统一七层流量入口，实现流量染色、路由转发、灰度发布、故障切流
单元内负载均衡：单元内四层/七层LB，实现单元内流量均匀分发

6.3.2 数据同步与一致性体系

这是异地多活的核心难点，核心是在跨地域高延迟环境下，平衡一致性、可用性、性能三者的关系。

核心数据同步方案
- 单元内封闭写：核心原则，“谁的用户，谁负责写”，每个用户的写操作只能在其归属单元内执行，从根源避免跨单元写冲突
- 强一致同步：基于Raft/Paxos协议的跨地域多副本共识，适用于元数据、交易核心数据，保障数据零丢失
- 最终一致同步：基于数据库binlog、消息队列的异步同步，适用于非核心数据、公共数据，延迟低、性能好
- 分布式数据库：使用原生支持跨地域多活、数据分片的分布式数据库（OceanBase、TiDB），大幅降低架构复杂度
公共数据处理方案：商品、配置等公共数据，采用“中心单元写入，多单元只读同步”的方案，保障一致性

6.3.3 故障自动切换与自愈体系

单元健康度全链路检测，实时判断单元健康状态
故障自动切流：单元故障时，全局流量调度系统自动将用户流量切换到健康单元，实现业务无感知
数据自动补全：故障恢复后，自动同步故障期间的数据，保障数据一致性
定期混沌工程演练，注入地域级故障，验证架构切换能力

6.4 异地多活核心挑战与解决方案

核心挑战	解决方案
跨地域网络延迟高	1. 单元内请求闭环，尽可能减少跨单元调用；2. 读请求就近接入，写请求归属单元执行；3. 核心数据强一致，非核心数据最终一致
跨单元数据一致性	1. 严格执行单元封闭写原则，避免跨单元写操作；2. 核心数据用分布式共识协议保障强一致；3. 公共数据单中心写入，多单元只读同步
分布式事务处理	1. 尽可能将事务闭环在单元内，避免跨单元分布式事务；2. 使用TCC、SAGA等柔性事务方案；3. 基于分布式数据库实现跨单元事务强一致
架构复杂度高、运维成本高	1. 标准化单元部署，统一架构、配置、运维规范；2. 全流程自动化运维；3. 完善的全链路可观测体系
资源成本过高	1. 仅核心业务实现异地多活，非核心业务采用异地灾备；2. 所有单元同时对外服务，资源利用率100%

七、高可用架构全生命周期保障体系

高可用架构不是一劳永逸的技术方案，而是贯穿系统全生命周期的完整管理体系。

7.1 设计阶段：高可用架构评审

可用性建模：基于业务SLA目标，拆解各环节可用性要求，计算系统整体可用性（系统整体可用性=各环节可用性的乘积）
FMEA（故障模式与影响分析）：系统性分析所有可能的故障模式、影响、根因，针对性设计高可用方案
全链路单点故障排查，确保核心节点无单点
核心系统架构变更必须经过高可用专项评审

7.2 开发阶段：容错编码规范

所有远程调用必须设置超时、重试、熔断机制，异常场景必须有兜底逻辑
服务优先采用无状态设计，便于水平扩展与故障切换
所有写接口必须实现幂等性，避免重试、切换导致的数据重复写入
开发阶段同步设计服务降级方案，明确降级触发条件、逻辑与开关

7.3 测试阶段：高可用验证体系

故障注入测试：主动注入节点宕机、网络中断、依赖故障等场景，验证系统容错能力
混沌工程演练：在预发/生产环境验证高可用架构的有效性
峰值/极限压测，验证系统高负载下的可用性与稳定性
容灾切换演练，验证切换流程的可行性与RTO达标情况

7.4 运维阶段：自动化运维与可观测体系

全链路可观测体系：覆盖基础设施、中间件、应用、业务全维度监控；分级告警机制；全链路追踪；统一日志平台
自动化运维体系：CI/CD自动化部署、基于流量的自动扩缩容、故障自愈自动化
变更管控体系：所有生产变更必须遵循“可灰度、可观测、可回滚”原则，降低变更故障风险

7.5 应急阶段：故障应急响应体系

针对核心故障场景制定详细应急预案，明确处理流程、责任人、操作步骤
7×24小时OnCall值班制度，核心故障分钟级响应
故障复盘机制：故障处理完成后，必须进行根因分析，制定改进措施，避免同类故障重复发生
定期开展应急演练，提升团队故障处理能力

八、体系总结与核心设计心法

8.1 体系逻辑闭环

整个高可用架构体系是层层递进、相互协同的完整闭环：

顶层标尺：SLA可用性指标是整个体系的目标与量化标准，所有技术方案均围绕SLA展开
底层基石：集群与副本技术实现基础冗余能力，消除单点故障，是所有高可用方案的基础
核心屏障：故障隔离体系控制故障爆炸半径，避免级联故障，是高可用的核心防控手段
兜底防线：容灾备份体系应对极端故障，保障业务连续性与数据可靠性，是高可用的最后一道防线
高阶形态：异地多活架构突破地域限制，实现地域级故障的无感知切换，是高可用架构的终极方案之一
落地保障：全生命周期保障体系，确保高可用架构从设计到落地的全流程有效执行

8.2 核心设计心法

高可用的本质是风险管控：不是追求绝对零故障，而是通过系统性方案，将故障发生概率、影响范围、恢复时间降到最低
平衡是核心：高可用永远是可用性、性能、成本、复杂度的平衡，没有最好的架构，只有最适合业务的架构
预防大于治理：高可用的核心是提前规避风险，而非故障发生后的补救
自动化是关键：人工操作是高可用最大的敌人，所有故障检测、切换、恢复流程必须实现自动化
可观测是前提：你无法保障你看不到的系统，完善的可观测体系是高可用架构的核心前提

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【架构设计】高可用架构设计：SLA可用性指标、集群、副本、异地多活、容灾备份、故障隔离