2. 某客户续报活动护航
客户为教育科技独角兽头部企业,旗下拥有多款在线教育产品,为用户提供网课、智能练习、难题解析等多元化的智能教育服务。采用层叠式的注意力机制在多候选文档,采样出多个候选答案区域,并在此基础上使用交叉投票模型,优化最终的答案,实现机器找出的答案比普通人找的更准确。
• 活动背景
客户的暑期续报活动是客户的一个重要续费活动之一,对客户完成营收目标很重要,为体验课到正价课的续报率负责,公司分配客户资源,电话沟通引导用户完成从体验课到系统班的课程报名工作,完成续报率指标。客户要求阿里云确保续保活动顺利进行,对重要资源进行保障。
• 活动前准备
与客户确认活动的内容,是否有做过压测,需要阿里云重点保障的云资源,了解到客户续报活动需要重保 CDN 及 OSS 资源,并与客户确认收集了主要的 CDN 域名,活动的时长,资源使用量(TPS、QPS 等信息)。
• 活动重保期间
以 CDN 资源为例,做了域名定时播报或者域名定时告警,重要活动期间 30 分播报一次,在天眼做了相关告警配置,相关告警信息播送到钉群:
告警配置如下:
- 创建内部钉群,将相关人员加入群;
- 创建群机器人,主要复制了Webhook;
- 配置播报,根据域名需要指标进行监控配置,可以配置告警、播报、订阅。
• 活动中了解客户业务情况
活动前对主要的域名做了资源巡检,通过对比一周信息查看是否有增量,并查看了
详细的资源使用情况。
定期询问客户业务是否正常,关注业务高峰期水位,每半个小时询问一次客户,直
至活动结束。
• 突发问题的应急处理
客户平时 MQ 水位比较低,业务活动需要调整 MQ 集群 20W/TPS 到 30W/TPS 一般在业务低峰期调整,因为是客户预估业务量,所以不太准,实际活动中重点关注了这部分资源。
本次活动 MQ 峰值超过 30w TPS/S,10 点钟,客户紧急反馈,但是实际没有限流。服务端这边给用户铂金版集群会有一定的冗余,可以提供服务,但这个不建议长时间突破,建议客户扩容到安全水位。
同时,客户反馈 11 点还有个高峰期,活动中扩容很显然不可取,因此,客户只能做
限流操作,把限流水位放在了 10 点高峰集群可以承载的水位,保证跟 10 点一样的
情况不被超限,客户做了接口限流操作,同时建议客户后期对业务量做充分评估。