亲宝宝:使用AHAS故障演练实现具备韧性的系统架构

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 通过引入成熟、稳定的阿里云混沌工程解决方案,亲宝宝的系统架构在面对复杂业务下频繁迭代时,系统依然具备面对失败的容错能力,业务表现得更稳定、健壮、弹性。

亲宝宝是一个专注于为孕期以及 0-6 岁家庭提供育儿服务的移动互联网平台。公司旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。核心产品“亲宝宝 APP”于 2013 年正式上线,以成长记录、智能育儿助手为核心功能,为年轻家庭提供私密亲子空间、线上早教、专业养育知识、 社区交流、母婴商品等一站式育儿服务,截至 2019 年底,亲宝宝的注册用户已经超过 1 亿。

2020年上半年,亲宝宝用户保持高速增长,其技术团队也逐步发展壮大。系统稳定性风险是技术团队面临的最大挑战之一,特别是在容器技术下的微服务架构,服务间调用错综复杂,应用依赖众多,对系统稳定性提出了以下诉求:

• 在微服务依赖治理,需具备超时、重试、降级及预案等容错能力。
• 容器架构模式下,需具备业务面对突发流量的弹性伸缩能力。
• 中间件或云服务在出现故障时,业务需要具备容错能力。
• 应用服务在面对不稳定网络环境时,需要具备自愈能力。

如何满足亲宝宝对稳定性的需求?

解决方案架构图
解决方案架构图

为了快速验证系统的容错能力,亲宝宝采用了阿里云应用高可用服务AHAS中的故障演练平台解决方案

• 通过模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证集群的弹性伸缩能力是否符合预期。
• 通过模拟应用无法连接消息、缓存以及数据库,验证系统在超时设置以及预案的有效性。
• 通过模拟网络不稳定场景,验证业务系统的影响范围。

通过引入成熟、稳定的阿里云混沌工程解决方案,亲宝宝的系统架构在面对复杂业务下频繁迭代时,系统依然具备面对失败的容错能力,业务表现得更稳定、健壮、弹性。亲宝宝的IT团队也通过方案背后所融入的方法论,掌握了一套适合自己团队的应对故障的预防机制,并且开始实践演练常态化、自动化机制。

关联产品

应用高可用服务 AHAS :https://www.aliyun.com/product/ahas

扫码了解更多技术内容与客户案例:

image.png

相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
相关文章
|
消息中间件 监控 Cloud Native
阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练
阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练
阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练
|
SQL 运维 监控
应用高可用 AHAS 产品销售指南| 学习笔记
应用高可用 AHAS 产品销售指南
113 0
应用高可用 AHAS 产品销售指南| 学习笔记
|
安全 应用服务中间件 AHAS
《筑牢高可用基石,AHAS 赋能溪鸟安全生产探索与实践》电子版地址
筑牢高可用基石,AHAS 赋能溪鸟安全生产探索与实践.ppt
51 0
《筑牢高可用基石,AHAS 赋能溪鸟安全生产探索与实践》电子版地址
|
运维 安全 容灾
筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践
本篇内容分享了筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践。
168 0
筑牢高可用基石,AHAS赋能溪鸟安全生产探索与实践
|
SQL 应用服务中间件 AHAS
阿里云应用高可用服务 AHAS 流控降级实现 SQL 自动防护功能
在影响系统稳定性的各种因素中,慢 SQL 是相对比较致命的,可能会导致 CPU、LOAD 异常、系统资源耗尽。线上生产环境出现慢 SQL 往往有很多原因: 硬件问题。如网络速度慢,内存不足,I/O 吞吐量小,磁盘空间满等。
3738 0
|
应用服务中间件 AHAS 监控
阿里云应用高可用 AHAS 正式商用,可一键提升云上应用可用性
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。 7月17日,阿里云应用高可用服务AHAS 正式商用,包含架构感知、流控降级和故障演练三大独立的功能模块,可快速提高应用的高可用能力,解决分布式架构下的高可用难题。
3156 0
|
关系型数据库 应用服务中间件 数据库
【阿里云新品发布·周刊】第18期:应用高可用服务 AHAS 商业化首发,一步提升应用可用性
点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多内容,了解更多 最新发布 应用高可用服务 AHAS 商业化首发 2019年7月17日15时,应用高可用服务 AHAS 商业化首发。
2089 0
应用高可用 AHAS 一键提升云上的业务可用性
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。 近日,阿里云高可用服务 AHAS 正式商用,提供限流降级、架构可视化、故障注入,可一键提升应用可用性,我们邀请了阿里巴巴高可用架构团队高级开发工程师云寅分享: 云上业务的可用性有5个9的要求,该如何提高? 如何评估分布式系统的容错性、系统容灾红线和云资源扩展能力? 系统架构复杂度越来越高,架构变化日益频繁,如何识别架构中存在的问题? 直播报名地址:点击这里。
12035 1
|
数据可视化 应用服务中间件 AHAS
免费的容器架构可视化工具 | 阿里云应用高可用服务 AHAS 发布重大新特性
采用容器服务后,了解容器之间的关系及依赖是一个比较有挑战的问题。容器化改造后的实际架构模型可能与预想的架构存在较大的差异,架构师或系统运维人员需要精确地了解资源实例的构成和交互情况,存在一定的困难。其次,系统架构在动态演化过程中可能引入了一些不可靠的因素,比如弱依赖变强依赖、局部容量不足、系统耦合过重等,给系统的稳定性带了极大的安全隐患。
21609 0
|
消息中间件 监控 应用服务中间件
高可用服务 AHAS 在消息队列 MQ 削峰填谷场景下的应用
在消息队列中,当消费者去消费消息的时候,无论是通过 pull 的方式还是 push 的方式,都可能会出现大批量的消息突刺。如果此时要处理所有消息,很可能会导致系统负载过高,影响稳定性。但其实可能后面几秒之内都没有消息投递,若直接把多余的消息丢掉则没有充分利用系统处理消息的能力。
5989 0

相关产品

  • 应用高可用服务