开发者学习笔记【阿里云云原生助理工程师认证(ACA)课程:消息队列和应用工具产品体系-完美日记电商业务案例】
课程地址:https://edu.aliyun.com/course/3112075/lesson/19055
消息队列和应用工具产品体系-完美日记电商业务案例
第二个案例来自年轻的时尚美妆品牌完美日记,作为美妆界的璀璨新星,完美日记上线不到两年,即成为天猫彩妆销冠。
截至2020年4月,品牌SKO超过700个,全网粉丝用户量超过2500万,月曝光量10亿家。伴随着公司业务的高速发展,技术运维面临着非常严峻的挑战。近年来,双十一电销大促、双十二购物节、小程序网红直播带货等话题爆发式的增长,确保微商城系统稳定运行,已经成为公司技术人员面临的首要难题。
这个难题的突出挑战包括以下几点:
第一,系统开发迭代快,线上版本问题多,定位问题耗时长。
第二,频繁大促系统的稳定性保障压力很大。由于第三方接口和谐服务内部慢收购的存在,突发线上故障的风险较高。
第三,压力测试和系统容量的评估工作频繁,需要常态化机制的支撑。
第四,大促时所需要的系统资源与日常需求相差较大,需要频繁且灵活的扩缩容。
这些问题也是当前电商企业所面临的常见困境。为了应对这些挑战,企业的业务应用和it系统架构都应该长远的规划和升级。
2019年8月,完美日记业务爆发后,开始与阿里云进行深度的合作。双方针对完美日记当前所面临的问题进行了深度的沟通,同时也对企业的技术规划展开了讨论。最终,完美日记决定借助阿里云云原生的应用,依靠其稳定成熟的解决方案应对企业的电商业务难题。通过引入阿里云服务ACK spring cloud、阿里巴巴PTS等配套的产品,完美日记对应用进行了容器化的改造和部署,并且使用阿里云的相关组件,优化配套的测试容量评估、扩缩容等研发和运维的环节,实现了产研效率的大幅提升。
如下图所示,我们简单的介绍一下完美日记的核心应用架构。
第一,通过容器化部署,利用阿里云容器服务的快速弹性来应对大促时的资源快速扩容。
第二,提前接入链路,追踪产品,对分布式环境下的复杂调用进行跟踪,对异常服务进行定位,帮助技术人员在测试和生产中快速定位问题,并修复降低故障对业务的影响。
第三,使用阿里云性能测试服务PTS进行压测,利用秒级流量拉起真实地理位置、流量等功能。以最真实的互联网流量进行压测,确保业务上线后的稳定运行。
第四,采集压测数据,解析系统的依赖关系和瓶颈,对关键业务接口、关键的第三方调用数据库慢调用、系统整体负载进行限流保护。
第五,配合阿里云服务团队在大促前进行ECS RDS安全等产品的扩容链路,梳理缓存、连接池、预热监控大屏自助后端资源保障演练等,帮助大促平稳进行。
下面我们来看一下完美日记企业技术负责人对这次技术平台升级的反馈和评价。完美日记技术中台负责人说了,以下内容使用ACK容器服务,可以帮助我们快速拉起测试环境,利用PTS计时高并发流量压测确认系统水位,结合AMS监控诊断压测过程中的性能瓶颈。最后通过AHAS对突发流量和意外场景进行实时限流降级,加上阿里云团队的保驾护航,保证了我们每一次大促活动的系统稳定性和可用性。同时利用ACK容器的快速弹性扩缩,容节约服务器成本50%以上。
总体而言,阿里云帮助用户实现了三个核心诉求。
第一,成熟的服务高可用,利用应用高可用服务产品的限流、降级和系统防护功能,对系统关键资源进行防护,对整体系统水位进行兜底,确保大促时系统的平稳运行,为用户提供流畅的购物体验。
第二,常态化机制的容量评估,利用性能测试服务和业务实时监控,对系统单机能力及整体容量进行评估。对系统承载的业务极限量进行提前研判,以确定针对大促活动可以做出来的合理的资源规划和成本预测。
第三,全方位的大促保障。通过与阿里云服务团队进行多次的配合演练。双方建立了大促保障标准流程及应急机制,实现了大促保障的常态化。