带你读《云原生架构白皮书2022新版》——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(1)

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 带你读《云原生架构白皮书2022新版》——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(1)

南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化


南瓜电影成立于 2015 年,是国内近两年发展非常迅速的流媒体平台,凭借着无广告、纯付费的商业模式,在影迷圈

中打响了一定的知名度;之后又靠着很强的社区互动性(AI 智能推荐、影评互动、通过放映厅实现线上“云观影”等),

迅速完成会员增长及流媒体市场占位;接下来将逐渐往多元化视频平台发展:如纪录片、各类自制节目等。

作为互联网风口上的行业,流量和生命周期会因为市场风向的变化而有着截然不同的表现,这对企业的创新和低成本

试错提出了更高的要求。南瓜电影的整体应用架构也随着业务的高速发展,持续不断地进化。今天我主要从三个部分

来和大家分享这一段发展历程:


痛点:回顾南瓜电影当时的业务、架构现状和痛点。

选型:分享在技术选型之路上我们的思考和决策,以及为什么最终会选择使用 SAE 这款产品。

实战:我们是怎么一步步落地、在短短 7 天内将整个平台几百台服务器,30 多个系统全面 Serverless 化的。


1、痛点


从创业之初,南瓜电影的整体应用架构就构建在阿里云之上,是一个典型的“生在云上,长在云上”的企业。底层使用阿里云 ECS,基础设施、中间件,数据库、大数据服务、云安全等也全部使用阿里云产品,最大化云的价值。基

础服务之上是我们自研的能力中心,基于算法和视频增强能力,提供会员、自适应码率、搜索引擎、影评、放映厅等

服务。通过 SLB 全球调度以及 WAF 安全接入对各种用户提供服务。上层承接多端,基本涵盖了市面上全部的终端

类型:包括手机、Pad、网页以及各种客户端、车载设备等。


image.png


但随着业务的不断发展,基于 ECS 的运维架构逐渐暴露了很多问题,主要有:

1)弹性扩容太慢:流量洪峰时,需临时购买新机器再逐台部署,非常耗时也保证不了系统 SLA。


2)发版慢 & 易出错:互联网频繁发布是常态,但每次几百台服务器一台台部署发版非常慢,一不小心就出错。也尝

试过脚本化部署,跑顺确实省事,但当服务器组一多,脚本不断修改过程中,万一中间卡壳了,定位问题非常困难。


3)系统维护成本高:传统集群运维繁琐,人员技能要求非常高:既要精通 lua /ansible 脚本等,又要懂云产品网络

配置和监控运维。早期公司并没有专职运维人员,耗费了开发大量的精力,非常之痛。


4)容量规划难,资源利用率低:对流媒体行业,高峰期一般在中午或晚上,其它时间访问都比较低,但很难精准备容。

我们一般是按照峰值长期固定保有服务器,资源利用率相对比较低。


5)权限分配繁琐:面对企业多租户时,权限隔离往往是一个非常头疼的问题。尤其是新人到岗或者跨团队联调时,

配置用户组、RAM 权限,新机器登陆连接方式,非常繁琐,账号管理人员也时常会成为瓶颈。


一场热映电影加速了南瓜电影技术升级思考


相信会有很多企业也面临和我们一样的难题,同时也制约着公司的发展。但开发人员都存在一定的惰性,认为只要不

出事就先继续耗着。而真正让我们下定决心做技术升级的,还得感谢 19 年的那场热映电影。

那天早上接到同学的电话说业务压力大,我说:“不可能,一般早上流量比较少”, 他说:“不知道,各种业务都

开始预警,我已经开启了预案,不断的买买买机器了”。后来才知道 1 个小时内新增注册用户突破 80W+(是平时

峰值的 5 倍以上),对南瓜电影来说是一个巨大的挑战和机遇。很快服务器直接崩了,流量总入口 API 网关撑不住,

紧接着后端服务、数据库都异常。


大家紧绷着神经,开始了全链路紧急扩容:从买 ECS,上传脚本到新机器,运行脚本,扩容 DB…... 整个过程断断

续续对用户产生影响,有些用户直接访问不了,持续了 4 个小时才最终完全恢复。

因平台都是付费客户,那天我们的客服电话从早上忙到晚上,不断有用户来投诉,说早上不能使用,要求赔偿。


image.png

所以,像这种突然袭击对团队来说是比较锻炼团队的事,而对公司来说是损失比较大的事。我们对那天所有打开  APP 的用户都进行了赔偿:当天使用全部免费,这也是业务层面的损失。不过最终因为这场电影,南瓜电影的日新增注册用户一路高涨,业务增速明显。但回顾整个运维过程,耗时 4 个小时,太惊险刺激了,我们不想再经历第二次了。


《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(2) https://developer.aliyun.com/article/1232778

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
7月前
|
小程序 前端开发
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
校园跑腿小程序系统是一款创新解决方案,旨在满足校园配送需求并拓展校友网络。跑腿员可接单配送,用户能实时跟踪订单并评价服务。系统包含用户、客服、物流、跑腿员及订单模块,功能完善。此外,小程序增设信息咨询发布、校园社区建设和活动组织等功能,助力校友互动、经验分享及感情联络,构建紧密的校友网络。
293 1
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
|
8月前
|
数据采集 运维 Serverless
云函数采集架构:Serverless模式下的动态IP与冷启动优化
本文探讨了在Serverless架构中使用云函数进行网页数据采集的挑战与解决方案。针对动态IP、冷启动及目标网站反爬策略等问题,提出了动态代理IP、请求头优化、云函数预热及容错设计等方法。通过网易云音乐歌曲信息采集案例,展示了如何结合Python代码实现高效的数据抓取,包括搜索、歌词与评论的获取。此方案不仅解决了传统采集方式在Serverless环境下的局限,还提升了系统的稳定性和性能。
241 0
|
8月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
4301 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
8月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
738 69
|
8月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
8月前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
463 12
|
9月前
|
算法 前端开发 定位技术
地铁站内导航系统解决方案:技术架构与核心功能设计解析
本文旨在分享一套地铁站内导航系统技术方案,通过蓝牙Beacon技术与AI算法的结合,解决传统导航定位不准确、路径规划不合理等问题,提升乘客出行体验,同时为地铁运营商提供数据支持与增值服务。 如需获取校地铁站内智能导航系统方案文档可前往文章最下方获取,如有项目合作及技术交流欢迎私信我们哦~
648 1
|
10月前
|
Kubernetes 监控 Serverless
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
|
9月前
|
存储 消息中间件 人工智能
基于 Apache RocketMQ 的 ApsaraMQ Serverless 架构升级
基于 Apache RocketMQ 的 ApsaraMQ Serverless 架构升级
205 0
|
11月前
|
SQL 弹性计算 运维
云卓越架构:稳定性支柱整体解决方案综述
阿里云卓越架构聚焦于五大支柱,其中稳定性是关键。常见的云上稳定性风险包括架构单点、容灾设计不足和容量规划不合理等。为提升稳定性,需从架构设计时考虑容灾与容错、实施变更时遵循“三板斧”原则(灰度发布、可观测性和可回滚性),并确保快速响应和恢复能力。此外,通过客观度量、主观评估和巡检等方式识别风险,并进行专项治理。识货APP作为成功案例,通过优化容器化改造、统一发布体系、告警系统和扩缩容机制,实现了99.8%的高可用率,大幅提升了业务稳定性。

热门文章

最新文章