【架构设计】高可用架构设计:SLA可用性指标、集群、副本、异地多活、容灾备份、故障隔离

简介: 本文系统构建高可用架构知识体系:以SLA为标尺,集群副本为基石,故障隔离为屏障,容灾备份为兜底,异地多活为高阶形态,并贯穿全生命周期保障。涵盖六大核心原则、N个9量化标准、混沌工程验证及3-2-1备份等最佳实践,强调风险管控、自动可观测与动态平衡。

高可用架构设计

一、体系总览与核心底层逻辑

1.1 核心定义与目标

高可用架构(High Availability, HA)是一套通过冗余、容错、隔离、自动化等技术手段,最大化系统服务持续可用时长、最小化故障停机损失,保障业务连续性与数据可靠性的完整架构体系。
核心目标可拆解为3个层级:

  • 基础层:消除单点故障,应对硬件/软件/网络的常规故障
  • 进阶层:控制故障爆炸半径,避免级联故障,实现故障自愈
  • 顶级层:应对地域级灾难,实现业务无感知切换,趋近于零停机

1.2 体系核心设计原则(贯穿全体系的底层逻辑)

  1. 冗余原则:所有核心节点无单点,通过多副本/多集群实现能力冗余,是高可用的基石
  2. 隔离原则:最小化故障域,限制故障影响范围,杜绝级联故障,是高可用的核心屏障
  3. 容错原则:系统具备故障容忍能力,局部故障不影响整体服务可用性
  4. 自动化原则:故障检测、切换、自愈全流程自动化,避免人工操作的延迟与失误
  5. 可观测原则:全链路可监控、可追踪、可告警,是故障快速定位与恢复的前提
  6. 平衡原则:在可用性、性能、成本、复杂度之间找到最优解,避免过度设计

二、高可用量化标尺:SLA可用性指标体系

SLA是整个高可用架构的顶层设计,所有技术方案均围绕SLA目标展开,是高可用能力的唯一量化标准。

2.1 核心概念厘清:SLA、SLO、SLI

术语 全称 核心定义 体系定位
SLI 服务水平指标 系统服务能力的可直接采集的客观量化数据 度量基础
SLO 服务水平目标 基于SLI设定的、固定周期内必须达成的可用性目标值 核心目标
SLA 服务水平协议 服务提供方与消费方签订的、包含SLO承诺与违约赔付条款的正式契约 最终约束

2.2 可用性核心量化公式与等级划分

2.2.1 核心计算公式

系统可用性 = (系统总运行时长 - 计划外故障停机时长) / 系统总运行时长 × 100%

关键说明:计划内维护(版本升级、架构调整)通常不计入故障停机时长,需在SLA中明确统计口径,避免歧义。

2.2.2 业界通用“N个9”可用性等级标准

可用性等级 年允许计划外停机时长 月允许停机时长 日允许停机时长 典型适用业务场景
2个9(99%) 3.65天 7.2小时 14.4分钟 非核心内部系统、离线业务、测试环境
3个9(99.9%) 8.76小时 43.2分钟 1.44分钟 企业内部核心系统、非交易型ToB服务
4个9(99.99%) 52.56分钟 4.32分钟 8.64秒 互联网核心业务、电商、金融非交易系统、云服务基础产品
5个9(99.999%) 5.26分钟 25.9秒 0.86秒 金融核心交易系统、支付清算、电信核心网、工业控制系统
6个9(99.9999%) 31.5秒 2.59秒 0.086秒 国家级关键基础设施、航空航天、核电控制系统

2.3 核心SLI指标维度(不止“不宕机”)

高可用不仅是服务不中断,更要保障服务质量达标,核心SLI维度包括:

  1. 可用性指标:服务正常响应率、请求成功率、节点存活时长占比
  2. 性能指标:平均响应时延、P95/P99时延、峰值吞吐量
  3. 错误指标:5xx错误率、4xx异常占比、超时请求占比
  4. 数据指标:数据一致性达标率、数据丢失率、备份恢复成功率

2.4 SLA落地关键规范

  1. 明确故障停机的判定标准、统计范围、排除项,避免口径歧义
  2. 建立分级SLA体系:按业务核心度拆分核心/非核心业务,设定差异化SLO,平衡成本与可用性
  3. 明确违约赔付机制,是SLA生效的核心约束
  4. 建立周期复盘机制,按月/季度复盘SLO达成情况,通过故障复盘持续优化架构

三、高可用基础基石:集群与副本技术

集群与副本是高可用架构最基础的冗余实现,是所有上层高可用方案的底层支撑,核心解决单点故障问题。

3.1 集群技术体系

3.1.1 核心定义与价值

集群是一组相互独立、通过网络互联的服务器节点,协同对外提供统一服务,对外表现为一个整体。
核心价值:

  • 消除单点故障:单节点故障不影响集群整体服务能力
  • 水平扩展:通过增加节点线性提升系统吞吐量与性能
  • 负载均衡:将流量均匀分发到健康节点,避免节点过载
  • 故障自愈:自动剔除故障节点,自动恢复节点服务能力

3.1.2 集群核心分类与适用场景

集群类型 核心定位 典型产品/组件 核心高可用能力
计算服务集群 承载业务逻辑、API服务、微服务应用 K8s集群、Spring Cloud集群、Web服务器集群 无状态服务弹性扩缩容、故障自动重建、流量自动切换
中间件集群 承载消息、缓存、注册中心等基础组件 Kafka集群、Redis集群、RocketMQ集群、Nacos集群 副本同步、leader自动选举、故障节点自动下线
存储集群 承载结构化/非结构化数据存储 MySQL集群、PostgreSQL集群、Ceph/HDFS分布式存储 数据多副本冗余、故障自动切换、数据一致性保障
算力集群 承载AI、大数据、高性能计算任务 Hadoop集群、GPU集群、Spark集群 任务容错、节点故障自动重调度、数据分片冗余

3.1.3 集群高可用核心组件

  1. 健康检查模块:TCP/HTTP/业务自定义探测,是故障识别的核心
  2. 负载均衡器(LB):四层LB(LVS、HAProxy)、七层LB(Nginx、Ingress),实现流量分发与故障节点自动剔除
  3. 服务注册与发现中心:Nacos、Consul、etcd,管理集群节点元数据,实现服务地址动态更新
  4. 分布式协调组件:etcd、ZooKeeper,基于共识协议实现集群leader选举、元数据一致性保障
  5. 集群调度器:K8s Scheduler、YARN,负责资源调度与故障节点任务重调度

3.2 副本技术体系

副本是集群的核心冗余单元,指同一份数据/服务的多个冗余拷贝,核心解决数据丢失服务中断双重问题。

3.2.1 副本核心作用

  1. 数据冗余:避免单节点硬件故障导致的数据不可逆丢失
  2. 故障切换:主副本故障时,从副本可快速升级为主副本,实现服务无中断
  3. 读写分离:读请求分发到从副本,提升系统读吞吐量,降低主副本压力
  4. 就近访问:多地域部署副本,实现用户就近接入,降低访问延迟

3.2.2 副本核心类型与一致性保障

副本类型 一致性模型 核心共识协议 核心特点 适用场景
强一致副本 线性一致性/强一致性 Paxos、Raft、ZAB 写操作需多数副本确认后返回,任意时刻所有副本数据完全一致 金融交易、元数据管理、分布式锁、核心数据存储
最终一致副本 最终一致性 Gossip协议、异步复制 写操作仅需主副本确认即可返回,从副本异步同步,短时间内存在数据延迟 互联网非交易业务、缓存、内容分发、日志系统
只读副本 只读一致性 异步/半同步复制 仅提供读服务,不参与写操作与leader选举,数据从主副本同步 读多写少场景、报表分析、数据备份、读写分离

3.2.3 副本部署核心策略与设计原则

  1. 分级部署策略
    • 同机房多机架部署:副本分散在不同机架,避免单机架掉电/网络故障导致全副本不可用
    • 同城多可用区(AZ)部署:副本分散在同城物理隔离的机房,应对单机房火灾、断电故障
    • 异地多地域部署:副本分散在不同城市,应对地震、洪水等地区级灾难,是异地多活的基础
  2. 副本数设计黄金原则
    • 强一致集群:副本数推荐为奇数(3、5、7),可容忍 (N-1)/2 个节点故障(3副本容忍1个故障,5副本容忍2个故障)
    • 最终一致集群:副本数根据业务可靠性需求设定,通用场景3副本,核心数据可提升至5副本

3.2.4 副本与集群的协同机制

  1. 自动leader选举:主副本故障时,集群通过共识协议自动选举新主副本,无需人工干预
  2. 副本自动重建:副本故障不可恢复时,集群自动在健康节点重建新副本,恢复冗余能力
  3. 数据自动均衡:集群自动调整副本分布,避免节点数据量不均导致的负载倾斜

四、高可用核心屏障:故障隔离体系

故障隔离的核心目标是控制故障爆炸半径,避免局部故障扩散为全系统级联故障,是高可用架构的“防火墙”,实现从“被动容错”到“主动防控”的升级。

4.1 故障隔离核心设计原则

  1. 最小故障域原则:将系统拆分为尽可能小的、相互隔离的故障域,单个故障域故障不影响其他域
  2. 无共享原则:故障域之间尽可能减少共享依赖,避免共享资源成为故障扩散通道
  3. 权责对等原则:业务核心度越高,故障隔离等级越高,隔离粒度越细
  4. 故障闭环原则:每个故障域具备独立的容错、降级、自愈能力,实现故障闭环处理

4.2 全维度故障隔离方案体系

4.2.1 架构层面隔离:从根源拆分故障域

  1. 业务域隔离(微服务/DDD隔离)
    基于DDD限界上下文拆分微服务,每个微服务对应独立业务域,独立部署运维;核心业务与非核心业务严格拆分,避免非核心业务故障影响核心链路。
  2. 多租户隔离
    • 物理隔离:不同租户使用独立服务器、数据库、集群,隔离等级最高,适用于金融、政务场景
    • 逻辑隔离:同一集群内通过租户ID实现数据隔离,共享硬件资源,成本更低,适用于通用SaaS场景
    • 混合隔离:核心租户物理隔离,普通租户逻辑隔离,平衡成本与可用性

4.2.2 部署层面隔离:物理/运行环境隔离

  1. 基础设施隔离:地域级/可用区/机房/机架多级隔离,核心服务跨可用区部署,避免单点硬件故障
  2. 运行环境隔离
    • 资源隔离:通过KVM、Docker、K8s实现进程级隔离,限制CPU、内存、IO资源,避免服务间资源争抢
    • 线程池隔离:为不同依赖服务分配独立线程池,避免单个依赖故障耗尽整个服务的线程资源(典型方案Hystrix、Sentinel)
    • 进程隔离:不同业务模块拆分为独立进程,单个进程崩溃不影响其他进程

4.2.3 流量层面隔离:避免故障流量扩散

  1. 流量分片隔离:按用户ID/地域/业务类型对流量分片,不同分片路由到独立集群/单元,单个分片故障不影响其他分片
  2. 发布流程隔离
    • 灰度/金丝雀发布:小流量验证新版本,无问题后全量发布,避免全量故障
    • 蓝绿部署:维护两套完全一致的集群,新版本验证后一次性切流,故障可秒级回滚
  3. 流量管控隔离
    • 限流:为每个服务/接口/调用方设置独立限流阈值,避免流量突增打垮服务
    • 熔断:下游服务故障时快速失败,不再发起请求,避免故障向上游扩散
    • 降级:非核心业务故障时,自动关闭非核心功能/返回缓存数据,保障核心业务资源充足

4.2.4 数据层面隔离:避免数据故障扩散

  1. 分库分表隔离:按业务域/用户ID分库分表,单个库/表故障不影响其他库表
  2. 读写分离隔离:读请求路由到只读副本,写请求路由到主库,避免读压力影响写服务
  3. 冷热数据隔离:热数据存高性能存储,冷数据存离线存储,避免冷数据查询影响热服务
  4. 缓存与数据库隔离:缓存故障时,通过熔断、限流避免缓存穿透打垮数据库

4.3 故障隔离验证机制:混沌工程

通过主动注入故障(节点宕机、网络延迟、服务熔断),验证故障隔离体系的有效性,确保故障影响范围符合预期,杜绝级联故障。


五、高可用兜底保障:容灾备份体系

容灾备份是应对极端故障(机房级/地域级灾难、数据误删、勒索病毒等)的兜底方案,是高可用架构的最后一道防线,核心解决极端场景下业务不中断、数据不丢失的问题。

5.1 核心概念厘清:容灾 VS 备份

维度 容灾(Disaster Recovery, DR) 备份(Backup)
核心目标 保障业务连续性,应对服务中断 保障数据可靠性,应对数据丢失
核心场景 机房断电、火灾、地震、地域级网络中断 数据误删、勒索病毒、硬件故障导致的数据损坏
核心指标 RTO(恢复时间目标) RPO(恢复点目标)
核心手段 多集群、多地域部署、业务切换 数据拷贝、快照、离线存储

5.2 容灾核心量化指标

  1. RTO(恢复时间目标):故障发生后,系统从停止服务到恢复正常的最长允许时间,RTO越短,业务中断时间越短
  2. RPO(恢复点目标):故障发生后,系统允许丢失的最长数据时间窗口,RPO越短,数据丢失越少

    高可用架构的终极目标是 RTO→0、RPO→0,不同容灾方案的核心差异就是RTO与RPO的达标能力。

5.3 容灾体系等级与部署模式

5.3.1 国标容灾等级(GB/T 20988-2007)

将信息系统容灾能力分为6个等级,从低到高覆盖从数据备份到异地实时双活的全场景:

  • T1级:基本级,离线数据异地备份,无备用机房,RTO≥7天,RPO≥1天
  • T2级:备用场地支持级,离线备份+备用机房,RTO≥36小时,RPO≥1天
  • T3级:电子传输级,在线数据备份+异地备用机房,RTO≥12小时,RPO≥数小时
  • T4级:活动备份级,同城双活+数据实时备份,RTO≥2小时,RPO≥数分钟
  • T5级:实时数据备份级,异地数据实时同步,RTO≥30分钟,RPO趋近于0
  • T6级:零数据丢失级,异地双活/多活,业务无感知切换,RTO→0,RPO→0

5.3.2 业界通用容灾部署模式(从低到高)

容灾模式 核心架构 RTO/RPO 核心优点 核心缺点 适用场景
冷备 主集群+异地离线备份,无备用集群,故障后人工重建 RTO:天级,RPO:天级 成本极低,架构简单 恢复时间长,数据丢失量大 非核心业务、离线归档数据
温备 主集群+异地备用集群,备用集群仅同步数据,故障后手动切换 RTO:小时级,RPO:分钟级 成本较低,复杂度低 切换需人工干预,资源利用率低 企业内部核心系统、非实时业务
热备 主集群+同城备用集群,数据实时同步,备用集群承担读流量,故障自动切换 RTO:分钟级,RPO:秒级 切换自动化,资源利用率较高 无法应对地域级灾难 互联网核心业务、金融非核心系统
同城双活 同城两个可用区集群同时对外服务,数据实时同步,故障自动切流 RTO:秒级,RPO趋近于0 资源利用率100%,故障无感知 无法应对地域级灾难 延迟敏感的核心交易、支付系统
异地双活/多活 跨地域多个集群同时对外服务,数据同步,故障全局切流 RTO→0,RPO→0 应对地域级灾难,用户就近访问 架构复杂度高,跨地域一致性挑战大 超大规模互联网业务、全国性金融服务

5.4 备份体系核心规范与最佳实践

5.4.1 备份核心类型

  1. 全量备份:完整拷贝所有数据,恢复速度快,占用空间大,备份时间长
  2. 增量备份:仅备份上次备份后变化的数据,占用空间小,恢复需依赖全量+所有增量备份
  3. 差异备份:仅备份上次全量备份后变化的数据,恢复速度快于增量备份,占用空间介于两者之间

5.4.2 业界黄金法则:3-2-1备份原则

全球公认的备份最佳实践,可应对99%以上的数据丢失场景:

  • 3份数据副本:除原始数据外,至少保留2份备份副本,总计3份数据
  • 2种存储介质:数据存储在至少2种不同物理介质上(硬盘、磁带、云存储),避免单一介质故障
  • 1份异地离线备份:至少保留1份备份副本在异地离线环境,应对地域级灾难、勒索病毒攻击

5.4.3 备份落地关键规范

  1. 按数据核心度制定差异化备份周期,核心数据每日全量+每小时增量
  2. 所有备份数据必须加密存储,避免数据泄露
  3. 定期执行备份恢复演练,验证备份数据的可恢复性,杜绝“备份了但恢复不了”的致命问题
  4. 配合快照技术实现热备份,避免备份过程中业务停机
  5. 设定备份数据生命周期,定期清理过期备份,平衡存储成本与可靠性

六、高可用高阶方案:异地多活架构

异地多活是高可用架构的高阶形态,是集群、副本、容灾、隔离技术的集大成者,核心突破单地域物理限制,实现地域级故障的无感知切换,同时提升全国/全球用户的访问体验。

6.1 核心定义与架构演进路径

6.1.1 核心定义

异地多活指跨地域部署多个业务单元(集群),每个单元都能同时对外提供服务(“活”的,而非冷备/温备);任意一个/多个单元故障时,其他单元可快速接管故障单元的所有流量,实现业务无感知恢复,RTO与RPO趋近于0。

6.1.2 架构演进路径

  1. 单机房部署→2. 同城双活→3. 两地三中心→4. 异地双活→5. 异地多活(业界最高阶形态)

6.2 异地多活核心架构模式:单元化(SET化)部署

单元化是异地多活的核心前提,是实现跨地域高可用的核心设计。

6.2.1 单元化核心定义

将整个系统拆分为多个独立、闭环的业务单元(SET),每个单元具备完整的服务能力,可独立对外提供服务,单元之间尽可能减少跨单元调用,每个单元只负责一部分用户的业务请求。
核心特点:

  • 闭环性:用户请求在单元内闭环完成,无需跨单元调用,规避跨地域延迟
  • 对等性:所有单元的架构、能力完全一致,可随时扩容、缩容、切换流量
  • 隔离性:单元之间完全隔离,单个单元故障不影响其他单元
  • 路由确定性:同一个用户的请求,始终路由到同一个单元,避免跨单元数据不一致

6.2.2 单元化核心分类

  1. 用户维度单元化:按用户ID哈希/尾号/地域分片,每个单元负责固定用户群体,是最常用方案(阿里电商单元化)
  2. 业务维度单元化:按业务域拆分单元,每个单元负责一个完整业务域,适用于链路独立的场景
  3. 地域维度单元化:按用户地域拆分单元,每个单元负责对应地域的用户请求,实现就近接入

6.3 异地多活核心技术体系

6.3.1 全局流量调度体系

异地多活的“入口大脑”,实现流量精准路由与故障自动切换,核心组件包括:

  1. GSLB(全局负载均衡):基于DNS智能解析、BGP路由,实现用户就近接入,故障时自动切换流量到健康单元
  2. HTTPDNS:替代传统DNS,避免DNS劫持、解析延迟,实现更精准的流量调度
  3. 全局接入层:统一七层流量入口,实现流量染色、路由转发、灰度发布、故障切流
  4. 单元内负载均衡:单元内四层/七层LB,实现单元内流量均匀分发

6.3.2 数据同步与一致性体系

这是异地多活的核心难点,核心是在跨地域高延迟环境下,平衡一致性、可用性、性能三者的关系。

  1. 核心数据同步方案
    • 单元内封闭写:核心原则,“谁的用户,谁负责写”,每个用户的写操作只能在其归属单元内执行,从根源避免跨单元写冲突
    • 强一致同步:基于Raft/Paxos协议的跨地域多副本共识,适用于元数据、交易核心数据,保障数据零丢失
    • 最终一致同步:基于数据库binlog、消息队列的异步同步,适用于非核心数据、公共数据,延迟低、性能好
    • 分布式数据库:使用原生支持跨地域多活、数据分片的分布式数据库(OceanBase、TiDB),大幅降低架构复杂度
  2. 公共数据处理方案:商品、配置等公共数据,采用“中心单元写入,多单元只读同步”的方案,保障一致性

6.3.3 故障自动切换与自愈体系

  1. 单元健康度全链路检测,实时判断单元健康状态
  2. 故障自动切流:单元故障时,全局流量调度系统自动将用户流量切换到健康单元,实现业务无感知
  3. 数据自动补全:故障恢复后,自动同步故障期间的数据,保障数据一致性
  4. 定期混沌工程演练,注入地域级故障,验证架构切换能力

6.4 异地多活核心挑战与解决方案

核心挑战 解决方案
跨地域网络延迟高 1. 单元内请求闭环,尽可能减少跨单元调用;2. 读请求就近接入,写请求归属单元执行;3. 核心数据强一致,非核心数据最终一致
跨单元数据一致性 1. 严格执行单元封闭写原则,避免跨单元写操作;2. 核心数据用分布式共识协议保障强一致;3. 公共数据单中心写入,多单元只读同步
分布式事务处理 1. 尽可能将事务闭环在单元内,避免跨单元分布式事务;2. 使用TCC、SAGA等柔性事务方案;3. 基于分布式数据库实现跨单元事务强一致
架构复杂度高、运维成本高 1. 标准化单元部署,统一架构、配置、运维规范;2. 全流程自动化运维;3. 完善的全链路可观测体系
资源成本过高 1. 仅核心业务实现异地多活,非核心业务采用异地灾备;2. 所有单元同时对外服务,资源利用率100%

七、高可用架构全生命周期保障体系

高可用架构不是一劳永逸的技术方案,而是贯穿系统全生命周期的完整管理体系。

7.1 设计阶段:高可用架构评审

  1. 可用性建模:基于业务SLA目标,拆解各环节可用性要求,计算系统整体可用性(系统整体可用性=各环节可用性的乘积)
  2. FMEA(故障模式与影响分析):系统性分析所有可能的故障模式、影响、根因,针对性设计高可用方案
  3. 全链路单点故障排查,确保核心节点无单点
  4. 核心系统架构变更必须经过高可用专项评审

7.2 开发阶段:容错编码规范

  1. 所有远程调用必须设置超时、重试、熔断机制,异常场景必须有兜底逻辑
  2. 服务优先采用无状态设计,便于水平扩展与故障切换
  3. 所有写接口必须实现幂等性,避免重试、切换导致的数据重复写入
  4. 开发阶段同步设计服务降级方案,明确降级触发条件、逻辑与开关

7.3 测试阶段:高可用验证体系

  1. 故障注入测试:主动注入节点宕机、网络中断、依赖故障等场景,验证系统容错能力
  2. 混沌工程演练:在预发/生产环境验证高可用架构的有效性
  3. 峰值/极限压测,验证系统高负载下的可用性与稳定性
  4. 容灾切换演练,验证切换流程的可行性与RTO达标情况

7.4 运维阶段:自动化运维与可观测体系

  1. 全链路可观测体系:覆盖基础设施、中间件、应用、业务全维度监控;分级告警机制;全链路追踪;统一日志平台
  2. 自动化运维体系:CI/CD自动化部署、基于流量的自动扩缩容、故障自愈自动化
  3. 变更管控体系:所有生产变更必须遵循“可灰度、可观测、可回滚”原则,降低变更故障风险

7.5 应急阶段:故障应急响应体系

  1. 针对核心故障场景制定详细应急预案,明确处理流程、责任人、操作步骤
  2. 7×24小时OnCall值班制度,核心故障分钟级响应
  3. 故障复盘机制:故障处理完成后,必须进行根因分析,制定改进措施,避免同类故障重复发生
  4. 定期开展应急演练,提升团队故障处理能力

八、体系总结与核心设计心法

8.1 体系逻辑闭环

整个高可用架构体系是层层递进、相互协同的完整闭环:

  1. 顶层标尺:SLA可用性指标是整个体系的目标与量化标准,所有技术方案均围绕SLA展开
  2. 底层基石:集群与副本技术实现基础冗余能力,消除单点故障,是所有高可用方案的基础
  3. 核心屏障:故障隔离体系控制故障爆炸半径,避免级联故障,是高可用的核心防控手段
  4. 兜底防线:容灾备份体系应对极端故障,保障业务连续性与数据可靠性,是高可用的最后一道防线
  5. 高阶形态:异地多活架构突破地域限制,实现地域级故障的无感知切换,是高可用架构的终极方案之一
  6. 落地保障:全生命周期保障体系,确保高可用架构从设计到落地的全流程有效执行

8.2 核心设计心法

  1. 高可用的本质是风险管控:不是追求绝对零故障,而是通过系统性方案,将故障发生概率、影响范围、恢复时间降到最低
  2. 平衡是核心:高可用永远是可用性、性能、成本、复杂度的平衡,没有最好的架构,只有最适合业务的架构
  3. 预防大于治理:高可用的核心是提前规避风险,而非故障发生后的补救
  4. 自动化是关键:人工操作是高可用最大的敌人,所有故障检测、切换、恢复流程必须实现自动化
  5. 可观测是前提:你无法保障你看不到的系统,完善的可观测体系是高可用架构的核心前提
相关文章
|
18天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34830 46
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
12天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
11585 36
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
7天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2424 24
|
29天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45740 157
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 弹性计算 安全
Hermes Agent是什么?怎么部署?超详细实操教程
Hermes Agent 是 Nous Research 于2026年2月开源的自进化AI智能体,支持跨会话持久记忆、自动提炼可复用技能、多平台接入与200+模型切换,真正实现“越用越懂你”。MIT协议,部署灵活,隐私可控。
1654 3
|
12天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1802 6

热门文章

最新文章

下一篇
开通oss服务