分享人:李浩正 阿里云Serverless产品解决方案架构师
庄 徐 麟南瓜电影CTO
正文:
本篇内容将通过三个部分来介绍南瓜电影7天内全面Serverless化实践。
一、南瓜电影概览
二、南瓜电影Serverless化实践
三、SAE重磅发布
一、南瓜电影概览
南瓜电影作为互联网全新商业模式,在国内视频行列中的实践者,异军突起,独树一帜,区别于传统视频软件。南瓜电影纯会员制,无任何广告与附加费用,让用户感受纯粹的观影体验。
在各种数据库的基础服务之上,是我们的自研能力中心,基于我们的算法,提供各项对用户的服务。包括视频增强能力,搜索引擎,放映厅等等。再通过上面的全球调度以及安全揭露,对用户提供服务。对外的终端,我们基本上涵盖了市面上全部的终端类型。我们通过云安全中心,对整个流程做各种各样的安全管控。
传统服务器运维无法满足业务的高速增长,遇到了很多问题。比如Scale-Out耗时太长,发版慢且易出错,回滚麻烦,运维监控困难,人员技能要求高,资源利用率低,权限分配繁琐,环境一致性难保证。
某电影上映后新注册用户爆发,自然爆点,日新增注册用户极速突破80万。
流量总入口,API,网关,撑不住,紧接着后端服务、数据库,全链路紧急扩容:
业务快速恢复,但整个运维过程耗时4小时。
于是,我们开始思考下一步应该怎么改造,当时内部有两个方案。第一。把脚本进行深度优化。但在应急情况下,很难完全满足。第二,我们考虑通过K8s做自己的容器解决方案,但我们团队当时没有那么多的资源和经验,且成本较高。
二、南瓜电影Serverless化实践
对于Serverless应用引擎的初印象是不用改造,WAR/JAR包部署,自动弹性,不用买机器,不用运维机器且监控安全。
我们的工程师写完代码,提交之后,我们的工具会自动进行集成,自动会进行单元测试。测试全部通过后,自动把文件部署到OSS内部。在这里,我们只需要从原来部署到ECS的变成SAE就行。
SAE上线之后,第一个应用是API网关。因为API网关突发流量较多,最适合使用SAE。出于容灾考虑,我们做了SAE和ECS的组合服务,对流量逐渐切流,最后将ECS作为灾备链路。对用户来说,基本上是无影响的,而且能最大程度测试SAE是否适合我们的业务。
在测试过程中,我们做了各种各样的操作。比如模拟用户进行线上环境的高并发访问。然后,通过各种监控报警,获得实时的监控指标。雪崩效应通过SAE的一些功能,能够把这些问题隔离。避雪崩效应导致整个系统崩溃。
接下来,我们聊聊SAE的监控诊断能力。我们能在SAE上看到应用的调用关系拓扑图、可以定位到慢SQL、慢服务、方法的调用堆栈、进而定位到代码级别的问题;也能查看各种维度的Top N关注应用,实现1人轻松运维成百上千个应用。通过这种方式,我们发现系统的开发效率提高很多,开发人员可以快速定位问题所在。
面对企业的权限管理,事后追溯等问题。我们以前通过堡垒机分配每一个团队的权限。但操作繁琐,无运维,审批风险大。SAE以应用粒度添加权限,方便省心,运维操作可设置审批流。大大提高了安全性和可用性。
我们从知道SAE,到跟阿里云的沟通,以及整个上线,一共是三天时间。到第五天,完成部署上线。剩下两天时间,把剩下30多个系统以同样的方式快速迁移到SAE上。针对整个七天的部署完以后,我们得出了这样的结论。首先,弹性如果配置,会按照你的最优化进行自动调整。第二个叫免运维。它的运维速度比人工更加的快捷。第三,发布更快。第四,监控更完善。
从使用方的角度给大家分享SAE的避坑指南和对SAE的一些期待。SAE的容灾多可用区部署和应用最小存活实例数。SAE灰度推荐启用分批灰度发布策略,安全生产。大家需要提前验证,健康检查的正确使用。提高稳定性,扩容阈值的合理设置。最后建议配置SLS日志和ARMS报警。
回顾过去三年,我们基于K8S的底座,以应用为中心,屏蔽掉一些K8S底层,实现了这种技术细节。同时,我们也开发了一些面向应用级别的ui和api,极大降低了客户在使用K8S的技术门槛。基于此,我们现在也可以郑重地对外宣告,我们已经服务了阿里云上的万家企业级客户,同时得到了客户的广泛认可。
三、SAE重磅发布
接下来,我将介绍一下SAE近期发布的一些新特性。第一个特性是弹性能力2.0。业界首发混合弹性策略;定时和指标策略混用;在开源K8s能力上,丰富业务弹性指标,支持高级弹性配置。第二个特性Java冷启动提速40%。我们联合Dragonwell突破Java应用冷启动瓶颈,提速40%。第三个特性极致部署效率15s。应用发布全链路升级:阿里沙箱容器2.0、镜像加速、ACREE等。提供端到端部署极致体验。第四个特性一站式PHP应用托管。我们支持PHP zip源码包部署,支持多种运行时环境和自定义扩展,无缝集成应用监控能力。
在企业不断的发展过程中,很多企业都会面临从单体到微服务架构转型的难题。通过阿里云SAE提供的服务能力和我们的稳定性兜底的能力。可以快速地帮助企业完成微服务的架构转型。同时,我们还可以让企业尝试一些新的业务创新。
开发测试环境和预发布环境,生产环境已经成了所有企业开发环境的标配。很多情况下,开发,测试与发布没有必要24小时连轴转的运营。如果客户有降本诉求,通过阿里云SAE一件起订的环境,我们可以灵活地按需开通和释放资源。节省闲置成本,光测试环境能节省2/3的机器成本。同时,保证我们所有环境的配置。
第三,全链路灰度的解决方案。适用场景调用链中因个别应用新上线,需要精准用户灰度验证。它可以控制最小爆炸半径,无需重新搭建一整套新环境,降低部署运维和硬件成本。它还能能覆盖七层流量到四层微服务接口、方法的灰度。
第四,作为弹性资源池降本。在弹性时长极短,或者峰值流量和常态流量差异较小的场景下。实现了免容量规划,弹性实例免运维,提升扩容效率,轻松应对突发流量;降低硬件成本业务侧,SAE和ECS的实例需使用同一个SLB,同一个注册中心自建发布系统需保持SAE和ECS实例版本一致性;自建监控系统,需规整SAE和ECS的监控数据。