亲宝宝:使用AHAS故障演练实现具备韧性的系统架构

本文涉及的产品
性能测试 PTS,5000VUM额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 通过引入成熟、稳定的阿里云混沌工程解决方案,亲宝宝的系统架构在面对复杂业务下频繁迭代时,系统依然具备面对失败的容错能力,业务表现得更稳定、健壮、弹性。

亲宝宝是一个专注于为孕期以及 0-6 岁家庭提供育儿服务的移动互联网平台。公司旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。核心产品“亲宝宝 APP”于 2013 年正式上线,以成长记录、智能育儿助手为核心功能,为年轻家庭提供私密亲子空间、线上早教、专业养育知识、 社区交流、母婴商品等一站式育儿服务,截至 2019 年底,亲宝宝的注册用户已经超过 1 亿。

2020年上半年,亲宝宝用户保持高速增长,其技术团队也逐步发展壮大。系统稳定性风险是技术团队面临的最大挑战之一,特别是在容器技术下的微服务架构,服务间调用错综复杂,应用依赖众多,对系统稳定性提出了以下诉求:

• 在微服务依赖治理,需具备超时、重试、降级及预案等容错能力。
• 容器架构模式下,需具备业务面对突发流量的弹性伸缩能力。
• 中间件或云服务在出现故障时,业务需要具备容错能力。
• 应用服务在面对不稳定网络环境时,需要具备自愈能力。

如何满足亲宝宝对稳定性的需求?

解决方案架构图
解决方案架构图

为了快速验证系统的容错能力,亲宝宝采用了阿里云应用高可用服务AHAS中的故障演练平台解决方案

• 通过模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证集群的弹性伸缩能力是否符合预期。
• 通过模拟应用无法连接消息、缓存以及数据库,验证系统在超时设置以及预案的有效性。
• 通过模拟网络不稳定场景,验证业务系统的影响范围。

通过引入成熟、稳定的阿里云混沌工程解决方案,亲宝宝的系统架构在面对复杂业务下频繁迭代时,系统依然具备面对失败的容错能力,业务表现得更稳定、健壮、弹性。亲宝宝的IT团队也通过方案背后所融入的方法论,掌握了一套适合自己团队的应对故障的预防机制,并且开始实践演练常态化、自动化机制。

关联产品

应用高可用服务 AHAS :https://www.aliyun.com/product/ahas

扫码了解更多技术内容与客户案例:

image.png

相关文章
|
消息中间件 监控 Cloud Native
阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练
阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练
阿里云AHAS Chaos:应用及业务高可用提升工具平台之故障演练
|
容器
纳管集群接入Ahas-架构感知
在容器服务的应用目录里找到“ack-ahas-pilot” 填入合适的参数后,“创建”即可,图中红框标注处均需要填入自己集群对应的值 如果集群和vpc之间有专线,region_id按专线连接的region填写,如果没有,region_id请填入“cn-public” license请按下图指引.
1044 0
纳管集群接入Ahas-架构感知
|
数据可视化 应用服务中间件 AHAS
免费的容器架构可视化工具 | 阿里云应用高可用服务 AHAS 发布重大新特性
采用容器服务后,了解容器之间的关系及依赖是一个比较有挑战的问题。容器化改造后的实际架构模型可能与预想的架构存在较大的差异,架构师或系统运维人员需要精确地了解资源实例的构成和交互情况,存在一定的困难。其次,系统架构在动态演化过程中可能引入了一些不可靠的因素,比如弱依赖变强依赖、局部容量不足、系统耦合过重等,给系统的稳定性带了极大的安全隐患。
21777 0
|
6月前
|
Java Serverless 应用服务中间件
Serverless 应用引擎产品使用之在Serverless 应用引擎中跳过AHAS创建如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
141 3
|
消息中间件 安全 应用服务中间件
消息队列和应用工具产品体系 - AHAS 产品概述
消息队列和应用工具产品体系 - AHAS 产品概述
消息队列和应用工具产品体系 - AHAS  产品概述
|
SQL 运维 监控
|
安全 应用服务中间件 双11
AHAS-流量防护应用权限管理 最佳实践
流量防护子账号权限细粒度控制:不同子账号 只可见对其授权的应用。 AHAS应用防护以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度来保障业务的稳定性,提供更专业稳定的流量防护手段、秒级的流量水位分布分析功能,是阿里巴巴双十一技术体系中的核心组件,同时也是开源框架Sentinel的商业化产品。
395 0
|
测试技术 应用服务中间件 AHAS
冬季实战营第四期:基于PTS&AHAS完成线上应用最佳状态的实践,直播学习笔记
冬季实战营第四期:基于PTS&AHAS完成线上应用最佳状态的实践
148 0
冬季实战营第四期:基于PTS&AHAS完成线上应用最佳状态的实践,直播学习笔记
|
应用服务中间件 AHAS 监控
阿里云应用高可用 AHAS 正式商用,可一键提升云上应用可用性
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。 7月17日,阿里云应用高可用服务AHAS 正式商用,包含架构感知、流控降级和故障演练三大独立的功能模块,可快速提高应用的高可用能力,解决分布式架构下的高可用难题。
3404 10
应用高可用 AHAS 一键提升云上的业务可用性
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。 近日,阿里云高可用服务 AHAS 正式商用,提供限流降级、架构可视化、故障注入,可一键提升应用可用性,我们邀请了阿里巴巴高可用架构团队高级开发工程师云寅分享: 云上业务的可用性有5个9的要求,该如何提高? 如何评估分布式系统的容错性、系统容灾红线和云资源扩展能力? 系统架构复杂度越来越高,架构变化日益频繁,如何识别架构中存在的问题? 直播报名地址:点击这里。
12378 13

相关产品

  • 应用高可用服务