《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(2) https://developer.aliyun.com/article/1232778
ROUND 3:API 网关自动扩缩,应对突增流量
光在常态流量下能稳定运行还不能证明 SAE 是靠谱的。于是我们先后在测试、生产环境重点验证了流量突增时,
SAE 的弹性能力。
我们用上一次热映电影的 5 倍的流量规模进行系统性的压测,将压测出来的 CPU、memory、QPS、RT 的阈值
设置在 SAE 弹性规则里面,然后再实时观察 SAE 控制台上应用监控各项指标,发现都正常。SAE 真的能在峰值
时秒级自动扩容,峰谷时按需自动缩容,就像下面这张图呈现的,使用 SAE 之后比以往 ECS 长期保有方式节省了
40% 左右的硬件成本。
就这样,我们的第一个应用 API 网关迁移成功,老的 ECS 实例也全面下线。阿里云 SAE 用稳定高效的表现向我们
证明之前的担心是多余的。于是我们陆续对其它业务线进行迁移。
ROUND 4:开箱即用全链路监控 & 诊断能力
在迁移过程中,偶尔也会碰到一些应用状态异常的问题。SAE 内置的 ARMS 监控系统对于我们线上问题的分析、
排查和解决,提供非常棒的支持,节省了大量的排查时间。在 SAE 上能看到应用的调用关系拓扑图、可以定位到慢
SQL、慢服务、方法的调用堆栈、进而定位到代码级别的问题。
不仅如此,SAE 还接受了我们合理化建议,提供了各种维度的 TopN 应用报表:能做到 1 个人轻松运维成百上千个
应用,当下哪些应用问题最大,最应该关注都一目了然,胸有成竹。
ROUND 5:【企业级特性】权限隔离 & 审批
SAE 还帮我们解决了一个老大难的问题:权限隔离和审批。
大家看下这张对比图:以往 ECS 模式下,跨团队要互访应用时,需要配置用户组、以机器粒度给不同的人添加
RAM 权限。如果涉及到运维部署,还得修改脚本配置,在跳板机上配置好新机器的用户名、密码、操作日志。一旦
人多机器多的时候,权限配置就会变得非常繁琐。而且运维操作没有审批,风险不可控,开发都有机器的用户名和密
码,发布比较随意。
使用 SAE 后,一切都变得简单了。以应用粒度添加权限,一个应用只要添加一次即可,省心省力。SAE 还通过主
子账号设计了运维审批流程:子账号发起某个资源的运维操作后,需得到主账号审批通过才能继续执行,否则 SAE
将中止任务,有效收敛了线上随意发布带来的质量风险。
《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(4) https://developer.aliyun.com/article/1232776
The