《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)

简介: 《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)

《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(上) https://developer.aliyun.com/article/1231890?groupCode=supportservice



重试策略-当调用外部服务异常时可以设置重试策略,每次重试时间递增,但

是需要设置最大重试次数和重试开关,避免对下游系统产生影响。


隔离-应用隔离,模块隔离,机房隔离和线程池隔离。可以按照优先级,不变

和变几个维度来隔离应用和模块,如抽象和不变的代码放在一个模块,这个模块的代码几乎不会修改,可用性高,经常变的业务逻辑放在一个模块里,这样就算有问题,也只会影响到某一个业务。不同的业务使用不同的线程池,避免低优先级任务阻塞高优先级,或高优先级任务过多时影响低优先级任务永远不会执行。


异步调用-同步调用改成异步调用,解决远程调用故障或调用超时对系统的影

响。


热点缓存-对热点数据进行缓存,降低RPC调用。如B系统提供名单服务,B系

统可以提供一个client SDK提供近端缓存服务,定期去服务器端取数据,减少RPC调用。


缓存容灾-当数据库不可用时可以使用缓存的数据。并设置分级缓存,如优先

读本地缓存,其次读分布式缓存。


分级缓存-优先读本地缓存,其次读分布式缓存。通过推模式更新本地缓存。


系统分级-对系统进行分级,如ABC三个等级,高级别系统不依赖于低级别系

统,并且高级别系统比底级别系统高可用率要高。


服务降级-如果系统出现响应缓慢等状况,可以关闭部分功能,从而释放系统

资源,保证核心服务的正常运行。需要识别哪些服务可以降级,比如突然有大量消息流入,导致服务不可用,会把消息直接丢弃掉。或通过设置流控,拒绝为低级别系统提供服务。


流量蓄洪-当流量陡增时,可以将请求进行蓄洪,如把请求保存在数据库中,

再按照指定的QPS进行泄洪,有效的保护下游系统,也保证了服务的可用性。当调用对方系统,对方系统响应缓慢或无响应时,可采取自动蓄洪。


服务权重-在集群环境中,可自动识别高性能服务,拒绝调用性能低的服务。

如在集群环境中,对调用超时的服务器进行权重降低,优先调用权重高的服务器。


依赖简化-减少系统之间的依赖,比如使用消息驱动,A和B系统通过消息服务

器传递数据,A和B系统使用数据库进行读写分离,A系统负责往数据库中写数据,B系统负责读数据,因为数据存放在数据库中,当A不可用时,短时间内不影响B系统提供服务。


弹性扩容-根据资源的使用率自动或手动进行扩容。如带宽不够用时,快速增

加带宽。


灰度和回滚-发布新功能只让部分服务器生效,且观察几天逐渐切流,如果出

现问题只影响部分客户。出现问题快速回滚,或者直接下线灰度的机器。


减少远程调用-优先调用本地JVM内服务,其次是同机房服务,然后是同城服

务,最后是跨城服务。如A调用B,B调用互联网的C系统获取数据,B系统可以把数据缓存起来,并设置数据的保鲜度,减少B对C的依赖。配置中心把注册服务的地址推送到调用服务的系统本地。参数中心把参数配置信息推送到系统的本地内存,而不是让系统去远程服务器获取参数信息。


熔断机制-增加熔断机制,当监控出线上数据出现大幅跌涨时,及时中断,避

免对业务产生更大影响。如做指标计算时,指标可以计算慢,但是不能算错,如果发现某个用户的指标环比或同比增长一倍或跌零,会考虑保存所有消息,并中止该用户的指标计算。


运行时加载模块-把经常变的业务代码变成一个个业务模块,使用Java的

ClassLoader在运行时动态加载和卸载模块,当某个模块有问题时候,可以快速修复


代码扫描-使用IDEA代码分析等工具进行代码扫描,识别出程序中的BUG,如

空指针异常,循环依赖等。


自动备份-程序,系统配置和数据定期进行备份。可使用linux命令和shell脚本

定时执行备份策略,自动进行本地或异地。出现问题时能快速重新部署。


线上压测-系统的对外服务需要进行压测,知道该服务能承受的QPS和TPS,

从而做出相对准确的限流。

相关文章
|
6月前
|
数据采集 监控 API
移动端性能监控探索:iOS RUM SDK 技术架构与实践
阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。
386 64
|
6月前
|
存储 缓存 安全
某鱼电商接口架构深度剖析:从稳定性到高性能的技术密码
某鱼电商接口架构揭秘:分层解耦、安全加固、性能优化三维设计,实现200ms内响应、故障率低于0.1%。详解三层架构、多引擎存储、异步发布、WebSocket通信与全链路防护,助力开发者突破电商接口“三难”困境。
|
6月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
454 0
|
7月前
|
SQL 监控 关系型数据库
MySQL主从复制:构建高可用架构
本文深入解析MySQL主从复制原理与实战配置,涵盖复制架构、监控管理、高可用设计及性能优化,助你构建企业级数据库高可用方案。
|
7月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
7月前
|
数据采集 存储 运维
MyEMS:技术架构深度剖析与用户实践支持体系
MyEMS 是一款开源能源管理系统,采用分层架构设计,涵盖数据采集、传输、处理与应用全流程,支持多协议设备接入与多样化能源场景。系统具备高扩展性与易用性,结合完善的文档、社区、培训与定制服务,助力不同技术背景用户高效实现能源数字化管理,降低使用门槛与运维成本,广泛适用于工业、商业及公共机构等场景。
311 0
|
6月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
6月前
|
运维 监控 安全
公链开发中的高可用架构设计要点
本指南提供公链高可用架构的可复用流程与模板,涵盖目标拆解、先决条件、分步执行、故障排查及验收标准,结合跨链DApp与量化机器人案例,提升落地效率与系统稳定性。
|
7月前
|
存储 监控 NoSQL
Redis高可用架构全解析:从主从复制到集群方案
Redis高可用确保服务持续稳定,避免单点故障导致数据丢失或业务中断。通过主从复制实现数据冗余,哨兵模式支持自动故障转移,Cluster集群则提供分布式数据分片与水平扩展,三者层层递进,保障读写分离、容灾切换与大规模数据存储,构建高性能、高可靠的Redis架构体系。
|
7月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,