南瓜电影 7 天内全面 Serverless 化实践

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
函数计算FC,每月15万CU 3个月
可观测监控 Prometheus 版,每月50GB免费额度
简介: 下文将介绍南瓜电影借助阿里云 SAE 后带来的变化。

作者:庄徐麟

审核校对:营火

编辑&排版:雯燕


从我们了解  SAE 产品到整体上线一共是 7 天时间。3 天完成核心应用  API  网关上线,第 5 天验证结束 100% 流量打到  SAE 上,第 6~7 天把其余 30 多个系统快速迁移到 SAE,整个过程非常顺利。使用 SAE 后,运维效率提升 70%,成本下降超过 40%,扩容效率提升 10 倍以上,这是给我们带来的直观改变 。

—— 南瓜电影 CTO 庄徐麟


南瓜电影成立于 2015 年,是国内近两年发展非常迅速的流媒体平台,凭借着无广告、纯付费的商业模式,在影迷圈中打响了一定的知名度;之后又靠着很强的社区互动性(AI 智能推荐、影评互动、通过放映厅实现线上“云观影”等),迅速完成会员增长及流媒体市场占位;接下来将逐渐往多元化视频平台发展:如纪录片、各类自制节目等。


作为互联网风口上的行业,流量和生命周期会因为市场风向的变化而有着截然不同的表现,这对企业的创新和低成本试错提出了更高的要求。南瓜电影的整体应用架构也随着业务的高速发展,持续不断地进化。今天我主要从三个部分来和大家分享这一段发展历程:


痛点:回顾南瓜电影当时的业务、架构现状和痛点。


选型:分享在技术选型之路上我们的思考和决策,以及为什么最终会选择使用 SAE 这款产品。


实战:我们是怎么一步步落地、在短短 7 天内将整个平台几百台服务器,30 多个系统全面 Serverless 化的。


痛点


从创业之初,南瓜电影的整体应用架构就构建在阿里云之上,是一个典型的“生在云上,长在云上”的企业。底层使用阿里云 ECS,基础设施、中间件,数据库、大数据服务、云安全等也全部使用阿里云产品,最大化云的价值。基础服务之上是我们自研的能力中心,基于算法和视频增强能力,提供会员、自适应码率、搜索引擎、影评、放映厅等服务。通过 SLB 全球调度以及 WAF 安全接入对各种用户提供服务。上层承接多端,基本涵盖了市面上全部的终端类型:包括手机、Pad、网页以及各种客户端、车载设备等。


1.png

南瓜电影初始应用架构


但随着业务的不断发展,基于 ECS 的运维架构逐渐暴露了很多问题,主要有:


1)弹性扩容太慢:流量洪峰时,需临时购买新机器再逐台部署,非常耗时也保证不了系统 SLA。


2)发版慢&易出错:互联网频繁发布是常态,但每次几百台服务器一台台部署发版非常慢,一不小心就出错。也尝试过脚本化部署,跑顺确实省事,但当服务器组一多,脚本不断修改过程中,万一中间卡壳了,定位问题非常困难。


3)系统维护成本高:传统集群运维繁琐,人员技能要求非常高:既要精通 lua /ansible 脚本等,又要懂云产品网络配置和监控运维。早期公司并没有专职运维人员,耗费了开发大量的精力,非常之痛。


4)容量规划难,资源利用率低:对流媒体行业,高峰期一般在中午或晚上,其它时间访问都比较低,但很难精准备容。我们一般是按照峰值长期固定保有服务器,资源利用率相对比较低。


5)权限分配繁琐:面对企业多租户时,权限隔离往往是一个非常头疼的问题。尤其是新人到岗或者跨团队联调时,配置用户组、RAM 权限,新机器登陆连接方式,非常繁琐,账号管理人员也时常会成为瓶颈。


一场热映电影加速了南瓜电影技术升级思考


相信会有很多企业也面临和我们一样的难题,同时也制约着公司的发展。但开发人员都存在一定的惰性,认为只要不出事就先继续耗着。而真正让我们下定决心做技术升级的,还得感谢 19 年的那场热映电影。


那天早上接到同学的电话说业务压力大,我说:“不可能,一般早上流量比较少”, 他说:“不知道,各种业务都开始预警,我已经开启了预案,不断的买买买机器了”。后来才知道 1 个小时内新增注册用户突破 80W+(是平时峰值的 5 倍以上),对南瓜电影来说是一个巨大的挑战和机遇。很快服务器直接崩了,流量总入口 API 网关撑不住,紧接着后端服务、数据库都异常。


大家紧绷着神经,开始了全链路紧急扩容:从买 ECS,上传脚本到新机器,运行脚本,扩容 DB…...整个过程断断续续对用户产生影响,有些用户直接访问不了,持续了 4 个小时才最终完全恢复。


因平台都是付费客户,那天我们的客服电话从早上忙到晚上,不断有用户来投诉,说早上不能使用,要求赔偿。


2.png


所以,像这种突然袭击对团队来说是比较锻炼团队的事,而对公司来说是损失比较大的事。我们对那天所有打开 APP 的用户都进行了赔偿:当天使用全部免费,这也是业务层面的损失。不过最终因为这场电影,南瓜电影的日新增注册用户一路高涨,业务增速明显。但回顾整个运维过程,耗时 4 个小时,太惊险刺激了,我们不想再经历第二次了。


选型


针对以上的问题,我们在想下一步应该怎么改造,当时内部有两个方案,但都存在一些弊端:


方案一:脚本深度优化,虽然能解决一些重复运维问题,但维护成本太高了,真正能把脚本写好的运维人员太难招了。我们也一直在用脚本,但确实没办法完全自动化,紧急扩容时还得人工购买 ECS。


方案二:自建 K8s,虽然能很好解决高密部署的问题,极大降低成本,也能自动扩容应用实例,但爆炸半径比 ECS 大,我们还是有点担心。最重要的是 K8s 学习成本实在是太高了,搭个环境跑跑容易,但正儿八经上生产的话还是要组建好专业团队,短期内显然无法完成。


3.png


后来,经过阿里云同事介绍,很快又有了方案三 —— 使用 SAE,也是最终落地的方案。


方案三:选择阿里云 Serverless 应用引擎(简称 SAE),对 SAE 的第一印象就是简单上手,省时省力,不用做任何改造,WAR/JAR 包直接上传部署,也不用买机器运维机器,节省开发大量时间。并且,SAE 就是一个超大规模的弹性资源池,想弹多少弹多少,想什么时候弹就什么时候弹,非常适合南瓜电影的业务场景。


4.png

SAE 初印象


实战


ROUND 1:CI/CD Pipeline – 加速迭代效率


在正式迁移业务之前,我们做的第一件事是基于 Travis CI + SAE 把 CI/CD 的流水线打通,提升发版效率。之前,当我们在 GitHub 上提交代码时,Travis CI 工具会自动集成,自动进行单元测试,测试通过后,会把文件上传到私有化 OSS 上,然后部署到 ECS 上。使用 SAE 后,只需要把 deploy 到 ECS 改成 deploy 到 SAE,非常简单,对开发侧没有任何影响。并且在应用部署的时候还能选择配置单批、分批、金丝雀等多种发布策略,异常时立刻中止和回滚,十分高效。


5.png


ROUND 2:上线第一个应用 API 网关


接下来就是挑选第一个应用实战了。当时我们做了一个大胆的决定:首先迁移 API 网关。API 网关是我们内部最核心的应用也是压力最大的应用,为什么这么选择呢?


首先,它有全国各地的部署。第二,它本身就有大量的 ECS 集群,我们只要操作调度系统把部分流量打到 SAE,假设 SAE 出现不稳定,也可以瞬间把流量切回到 ECS,对用户几乎没有影响。第三,API 网关作为总流量入口,突发流量较多,比较匹配 SAE 的弹性优势,可以最大程度的测试出 SAE 是否适合我们的业务。


起初上生产环境,我们自己也很担心,为防止意外发生,我们决定让原有的 ECS 实例和 SAE 上的实例一起跑,如果一方发生问题立马切换流量,跑稳之后再将 ECS 实例作为灾备链路。
image.gif

6.png


ROUND 3:API 网关自动扩缩,应对突增流量


光在常态流量下能稳定运行还不能证明 SAE 是靠谱的。于是我们先后在测试、生产环境重点验证了流量突增时,SAE 的弹性能力。


我们用上一次热映电影的 5 倍的流量规模进行系统性的压测,将压测出来的 CPU、memory、QPS、RT 的阈值设置在 SAE 弹性规则里面,然后再实时观察 SAE 控制台上应用监控各项指标,发现都正常。SAE 真的能在峰值时秒级自动扩容,峰谷时按需自动缩容,就像下面这张图呈现的,使用 SAE 之后比以往 ECS 长期保有方式节省了 40% 左右的硬件成本。


7.png


就这样,我们的第一个应用 API 网关迁移成功,老的 ECS 实例也全面下线。阿里云 SAE 用稳定高效的表现向我们证明之前的担心是多余的。于是我们陆续对其它业务线进行迁移。


ROUND 4:开箱即用全链路监控&诊断能力


在迁移过程中,偶尔也会碰到一些应用状态异常的问题。SAE 内置的 ARMS 监控系统对于我们线上问题的分析、排查和解决,提供非常棒的支持,节省了大量的排查时间。在 SAE 上能看到应用的调用关系拓扑图、可以定位到慢 SQL、慢服务、方法的调用堆栈、进而定位到代码级别的问题。


不仅如此,SAE 还接受了我们合理化建议,提供了各种维度的 TopN 应用报表:能做到 1 个人轻松运维成百上千个应用,当下哪些应用问题最大,最应该关注都一目了然,胸有成竹。


8.png


ROUND 5:【企业级特性】权限隔离&审批


SAE 还帮我们解决了一个老大难的问题:权限隔离和审批。


大家看下这张对比图:以往 ECS 模式下,跨团队要互访应用时,需要配置用户组、以机器粒度给不同的人添加 RAM 权限。如果涉及到运维部署,还得修改脚本配置,在跳板机上配置好新机器的用户名、密码、操作日志。一旦人多机器多的时候,权限配置就会变得非常繁琐。而且运维操作没有审批,风险不可控,开发都有机器的用户名和密码,发布比较随意。


使用 SAE 后,一切都变得简单了。以应用粒度添加权限,一个应用只要添加一次即可,省心省力。SAE 还通过主子账号设计了运维审批流程:子账号发起某个资源的运维操作后,需得到主账号审批通过才能继续执行,否则 SAE 将中止任务,有效收敛了线上随意发布带来的质量风险。


9.png


ROUND 6:落地完成


通过和 SAE 平台不断的磨合验证,在第 7 天的时候,我们所有应用已经全面 Severless 化,ALL ON SAE 了。整个迁移过程平滑,无任何改造成本,零故障,并且只投入了 1~2 个研发人员。


我们整体分析了一下,SAE 给南瓜电影带来的价值,可以归纳成几点:


1)扩容更快:再也不用考虑高峰期不够、低谷期浪费了,SAE 会按照最优化自动伸缩调整实例数。


2)发布更快:通过 CI/CD 流水线提升发版效率、通过 Cloudtoolkit 插件快速实现本地一键部署到云端 SAE,开发调试很方便。


3)运维更省心:免运维不是不运维,对我们来说当你收到告警,登上控制台,开始修复的一刹那,基本上就已经完成了,整个运维速度比人工更加快捷


4)查问题更快:SAE 自带的监控能力,给我们排查问题节省了大量的时间。


经过测算,相比我们之前传统服务器模式,开发效率提升 70%,成本下降超过 40%,扩容效率提升了 10 倍以上。


10.png


总结&期待


最后,我们把使用过程中的一些总结、踩过的坑分享给大家。


1)多可用区部署:之前我们所有应用都只配置单可用区 A 就吃过亏,后来在 SAE 团队的建议下,全部切成多可用区部署容灾,所以严重推荐这个注意点。


2)分批/灰度发布策略:多实例的应用一定要分批或者灰度发布,以避免异常情况对整体业务的影响,并且整个发布一定要做完整的测试。


3)健康检查:应用自定义的健康检查脚本一定要前置 check,避免因脚本自身的问题导致应用一直启动失败。


4)扩容阈值的合理设置:扩容的阈值一定要多测试,做过系统压测之后再定。必要的时候适当调小点阈值,宁愿多扩实例也不要出现线上故障。


5)配置 SLS 日志和 ARMS 报警:建议一定配置 SLS 本身日志和 ARMS 报警,为事后问题定位提供非常大的帮助。


我们同时也对 SAE 充满了期待:比如希望优化 Java 冷启动时长,我们有些应用光启动就要 1-2 分钟(后来了解 SAE 已经实现了)。也希望 SAE 更进一层,提供一套完整 Serverless 架构给到用户:不只是应用层,还包括数据库,网络等,彻底让我们只关注业务开发。虽然这个实现起来可能会比较难,需要点时间,但我们对 SAE 很有信心。


11.png


最后,衷心感谢阿里云 SAE 在南瓜电影发展历程中的携手与支持,使用 SAE 以后,大面积的故障到现在为止还没有发生过一次。整个过程中,我们也收获了很多经验,让我们可以快速通过它对用户提供服务。


南瓜电影也会一如既往地为广大影迷朋友们带来最优质的影片资源和最极致的观影体验,为社会创造更多的正能量。也祝愿阿里云敢梦想敢创新再创佳绩,服务全球更多的企业!


点击这里,查看 SAE 相关详情!




了解更多相关信息,请扫描下方二维码或搜索微信号(AlibabaCloud888)添加云原生小助手!获取更多相关资讯!

二维码.png



相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
2月前
|
运维 Kubernetes 前端开发
拥抱Knative, 合思加速Serverless化演进实践
合思信息基于阿里云容器服务Knative, 实现Serverless化演进的最佳实践。
拥抱Knative, 合思加速Serverless化演进实践
|
3月前
|
弹性计算 关系型数据库 Serverless
函数计算驱动多媒体文件处理:高效、稳定与成本优化实践
本次测评的解决方案《告别资源瓶颈,函数计算驱动多媒体文件处理》展示了如何利用阿里云函数计算高效处理多媒体文件。文档结构清晰、内容详实,适合新客户参考。方案提供了一键部署与手动部署两种方式,前者简便快捷,后者灵活性高但步骤较多。通过部署,用户可体验到基于函数计算的文件处理服务,显著提升处理效率和系统稳定性。此外,测评还对比了应用内处理文件与函数计算处理文件的不同,突出了函数计算在资源管理和成本控制方面的优势。
22716 19
|
3月前
|
运维 Kubernetes Serverless
Serverless Argo Workflows荣获信通院标杆实践案例,引领大规模离线任务处理新方法
阿里云容器服务Serverless Argo Workflows大规模离线计算工作流平台荣获2024信通院Serveless实践标杆案例。本文介绍其应用场景、平台特性以及领域实践。
|
4月前
|
分布式计算 Java Serverless
EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务
本文以 ECS 连接 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。
403 7
EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务
|
3月前
|
前端开发 大数据 数据库
🔥大数据洪流下的决战:JSF 表格组件如何做到毫秒级响应?揭秘背后的性能魔法!💪
【8月更文挑战第31天】在 Web 应用中,表格组件常用于展示和操作数据,但在大数据量下性能会成瓶颈。本文介绍在 JavaServer Faces(JSF)中优化表格组件的方法,包括数据处理、分页及懒加载等技术。通过后端分页或懒加载按需加载数据,减少不必要的数据加载和优化数据库查询,并利用缓存机制减少数据库访问次数,从而提高表格组件的响应速度和整体性能。掌握这些最佳实践对开发高性能 JSF 应用至关重要。
70 0
|
3月前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
205 0
|
4月前
|
分布式计算 Hadoop Serverless
数据处理的艺术:EMR Serverless Spark实践及应用体验
阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台,融合云原生弹性与自动化,提供任务全生命周期管理,让数据工程师专注数据分析。它内置高性能Fusion Engine,性能比开源Spark提升200%,并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理,实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景,简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。
|
5月前
|
分布式计算 运维 Serverless
通过Serverless Spark提交PySpark流任务的实践体验
EMR Serverless Spark服务是阿里云推出的一种全托管、一站式的数据计算平台,旨在简化大数据计算的工作流程,让用户更加专注于数据分析和价值提炼,而非基础设施的管理和运维。下面就跟我一起通过Serverless Spark提交PySpark流任务吧。
238 1
|
5月前
|
Cloud Native 安全 开发者
云原生架构的演进与实践:从微服务到无服务器计算
本文深入探讨了云原生技术的最新进展,特别关注微服务和无服务器计算模型。通过分析相关研究数据和行业案例,文章揭示了云原生架构如何推动现代应用开发,提升运维效率,并实现资源的最优化配置。文中详细讨论了云原生生态系统中的关键组成部分,包括容器化、自动化管理工具和服务网格,以及它们如何共同促进敏捷性和可扩展性。此外,文章还分析了云原生安全策略的重要性,以及如何在保障安全的同时,保持系统的灵活性和高效性。
|
6月前
|
运维 Cloud Native Serverless
【阿里云云原生专栏】阿里云云原生实践:从容器化到Serverless的无缝过渡
【5月更文挑战第20天】本文介绍了如何在阿里云上实现从容器化到Serverless的平滑过渡。首先,通过阿里云容器服务(ACK)创建和管理容器集群,部署应用。接着,利用函数计算(FC)构建Serverless架构,编写和部署函数代码。最后,借助函数工作流(Fn)进行任务编排,实现容器化应用与Serverless应用的统一管理,从而提升应用弹性和可扩展性,降低运维成本,支持企业高效数字化转型。
580 3

相关产品

  • 函数计算