亲宝宝是一个专注于为孕期以及 0-6 岁家庭提供育儿服务的移动互联网平台。公司旨在运用科技的力量,帮助家庭更好地关爱和培育孩子。核心产品“亲宝宝 APP”于 2013 年正式上线,以成长记录、智能育儿助手为核心功能,为年轻家庭提供私密亲子空间、线上早教、专业养育知识、 社区交流、母婴商品等一站式育儿服务,截至 2019 年底,亲宝宝的注册用户已经超过 1 亿。
2020年上半年,亲宝宝用户保持高速增长,其技术团队也逐步发展壮大。系统稳定性风险是技术团队面临的最大挑战之一,特别是在容器技术下的微服务架构,服务间调用错综复杂,应用依赖众多,对系统稳定性提出了以下诉求:
• 在微服务依赖治理,需具备超时、重试、降级及预案等容错能力。
• 容器架构模式下,需具备业务面对突发流量的弹性伸缩能力。
• 中间件或云服务在出现故障时,业务需要具备容错能力。
• 应用服务在面对不稳定网络环境时,需要具备自愈能力。
如何满足亲宝宝对稳定性的需求?
解决方案架构图
为了快速验证系统的容错能力,亲宝宝采用了阿里云应用高可用服务AHAS中的故障演练平台解决方案:
• 通过模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证集群的弹性伸缩能力是否符合预期。
• 通过模拟应用无法连接消息、缓存以及数据库,验证系统在超时设置以及预案的有效性。
• 通过模拟网络不稳定场景,验证业务系统的影响范围。
通过引入成熟、稳定的阿里云混沌工程解决方案,亲宝宝的系统架构在面对复杂业务下频繁迭代时,系统依然具备面对失败的容错能力,业务表现得更稳定、健壮、弹性。亲宝宝的IT团队也通过方案背后所融入的方法论,掌握了一套适合自己团队的应对故障的预防机制,并且开始实践演练常态化、自动化机制。
关联产品
应用高可用服务 AHAS :https://www.aliyun.com/product/ahas