《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)

简介: 《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下)

《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(上) https://developer.aliyun.com/article/1231890?groupCode=supportservice



重试策略-当调用外部服务异常时可以设置重试策略,每次重试时间递增,但

是需要设置最大重试次数和重试开关,避免对下游系统产生影响。


隔离-应用隔离,模块隔离,机房隔离和线程池隔离。可以按照优先级,不变

和变几个维度来隔离应用和模块,如抽象和不变的代码放在一个模块,这个模块的代码几乎不会修改,可用性高,经常变的业务逻辑放在一个模块里,这样就算有问题,也只会影响到某一个业务。不同的业务使用不同的线程池,避免低优先级任务阻塞高优先级,或高优先级任务过多时影响低优先级任务永远不会执行。


异步调用-同步调用改成异步调用,解决远程调用故障或调用超时对系统的影

响。


热点缓存-对热点数据进行缓存,降低RPC调用。如B系统提供名单服务,B系

统可以提供一个client SDK提供近端缓存服务,定期去服务器端取数据,减少RPC调用。


缓存容灾-当数据库不可用时可以使用缓存的数据。并设置分级缓存,如优先

读本地缓存,其次读分布式缓存。


分级缓存-优先读本地缓存,其次读分布式缓存。通过推模式更新本地缓存。


系统分级-对系统进行分级,如ABC三个等级,高级别系统不依赖于低级别系

统,并且高级别系统比底级别系统高可用率要高。


服务降级-如果系统出现响应缓慢等状况,可以关闭部分功能,从而释放系统

资源,保证核心服务的正常运行。需要识别哪些服务可以降级,比如突然有大量消息流入,导致服务不可用,会把消息直接丢弃掉。或通过设置流控,拒绝为低级别系统提供服务。


流量蓄洪-当流量陡增时,可以将请求进行蓄洪,如把请求保存在数据库中,

再按照指定的QPS进行泄洪,有效的保护下游系统,也保证了服务的可用性。当调用对方系统,对方系统响应缓慢或无响应时,可采取自动蓄洪。


服务权重-在集群环境中,可自动识别高性能服务,拒绝调用性能低的服务。

如在集群环境中,对调用超时的服务器进行权重降低,优先调用权重高的服务器。


依赖简化-减少系统之间的依赖,比如使用消息驱动,A和B系统通过消息服务

器传递数据,A和B系统使用数据库进行读写分离,A系统负责往数据库中写数据,B系统负责读数据,因为数据存放在数据库中,当A不可用时,短时间内不影响B系统提供服务。


弹性扩容-根据资源的使用率自动或手动进行扩容。如带宽不够用时,快速增

加带宽。


灰度和回滚-发布新功能只让部分服务器生效,且观察几天逐渐切流,如果出

现问题只影响部分客户。出现问题快速回滚,或者直接下线灰度的机器。


减少远程调用-优先调用本地JVM内服务,其次是同机房服务,然后是同城服

务,最后是跨城服务。如A调用B,B调用互联网的C系统获取数据,B系统可以把数据缓存起来,并设置数据的保鲜度,减少B对C的依赖。配置中心把注册服务的地址推送到调用服务的系统本地。参数中心把参数配置信息推送到系统的本地内存,而不是让系统去远程服务器获取参数信息。


熔断机制-增加熔断机制,当监控出线上数据出现大幅跌涨时,及时中断,避

免对业务产生更大影响。如做指标计算时,指标可以计算慢,但是不能算错,如果发现某个用户的指标环比或同比增长一倍或跌零,会考虑保存所有消息,并中止该用户的指标计算。


运行时加载模块-把经常变的业务代码变成一个个业务模块,使用Java的

ClassLoader在运行时动态加载和卸载模块,当某个模块有问题时候,可以快速修复


代码扫描-使用IDEA代码分析等工具进行代码扫描,识别出程序中的BUG,如

空指针异常,循环依赖等。


自动备份-程序,系统配置和数据定期进行备份。可使用linux命令和shell脚本

定时执行备份策略,自动进行本地或异地。出现问题时能快速重新部署。


线上压测-系统的对外服务需要进行压测,知道该服务能承受的QPS和TPS,

从而做出相对准确的限流。

相关文章
|
1天前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
11 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
7天前
|
人工智能 运维 Cloud Native
2025年国内工单系统推荐:技术架构、场景适配与行业实践
分析了智能化升级、大数据驱动、云原生架构及全渠道融合四大技术趋势,从功能适配性、易用性、集成能力、安全性和性价比五个维度指导企业选型,并推荐合力亿捷等三家系统的优劣对比,结合电商和制造行业的实际案例,帮助企业提升客户服务水平与竞争力。
49 11
2025年国内工单系统推荐:技术架构、场景适配与行业实践
|
6天前
|
运维 安全 弹性计算
基于阿里云的开源应用智能管理架构设计与工程实践
本文以Websoft9技术方案为例,探讨企业级应用管理的范式。通过解析开源应用管理面临的部署复杂性、运维低效性和知识碎片化三大挑战,提出基于阿里云的三层架构:智能应用管理门户、核心功能层和基础设施层。文章详细阐述了应用编排标准化(IaC实践)、智能运维体系构建及知识资产数字化的技术实现路径,并结合金融与制造行业的案例,展示解决方案的实际效果。最后提供开发者资源与工具链支持,助力企业高效管理应用。
69 1
|
7天前
|
存储 消息中间件 缓存
支持百万人超大群聊的Web端IM架构设计与实践
本文将回顾实现一个支持百万人超大群聊的Web端IM架构时遇到的技术挑战和解决思路,内容包括:通信方案选型、消息存储、消息有序性、消息可靠性、未读数统计。希望能带给你启发。
21 0
支持百万人超大群聊的Web端IM架构设计与实践
|
9天前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
19天前
|
SQL 消息中间件 Serverless
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
18天前
|
消息中间件 人工智能 自然语言处理
基于 RocketMQ 事件驱动架构的 AI 应用实践
基于 RocketMQ 事件驱动架构的 AI 应用实践
|
20天前
|
监控 Cloud Native Java
基于阿里云容器服务(ACK)的微服务架构设计与实践
本文介绍如何利用阿里云容器服务Kubernetes版(ACK)构建高可用、可扩展的微服务架构。通过电商平台案例,展示基于Java(Spring Boot)、Docker、Nacos等技术的开发、容器化、部署流程,涵盖服务注册、API网关、监控日志及性能优化实践,帮助企业实现云原生转型。
|
3月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。

热门文章

最新文章