带你读《云原生架构白皮书2022新版》——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(1)

简介: 带你读《云原生架构白皮书2022新版》——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(1)

南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化


南瓜电影成立于 2015 年,是国内近两年发展非常迅速的流媒体平台,凭借着无广告、纯付费的商业模式,在影迷圈

中打响了一定的知名度;之后又靠着很强的社区互动性(AI 智能推荐、影评互动、通过放映厅实现线上“云观影”等),

迅速完成会员增长及流媒体市场占位;接下来将逐渐往多元化视频平台发展:如纪录片、各类自制节目等。

作为互联网风口上的行业,流量和生命周期会因为市场风向的变化而有着截然不同的表现,这对企业的创新和低成本

试错提出了更高的要求。南瓜电影的整体应用架构也随着业务的高速发展,持续不断地进化。今天我主要从三个部分

来和大家分享这一段发展历程:


痛点:回顾南瓜电影当时的业务、架构现状和痛点。

选型:分享在技术选型之路上我们的思考和决策,以及为什么最终会选择使用 SAE 这款产品。

实战:我们是怎么一步步落地、在短短 7 天内将整个平台几百台服务器,30 多个系统全面 Serverless 化的。


1、痛点


从创业之初,南瓜电影的整体应用架构就构建在阿里云之上,是一个典型的“生在云上,长在云上”的企业。底层使用阿里云 ECS,基础设施、中间件,数据库、大数据服务、云安全等也全部使用阿里云产品,最大化云的价值。基

础服务之上是我们自研的能力中心,基于算法和视频增强能力,提供会员、自适应码率、搜索引擎、影评、放映厅等

服务。通过 SLB 全球调度以及 WAF 安全接入对各种用户提供服务。上层承接多端,基本涵盖了市面上全部的终端

类型:包括手机、Pad、网页以及各种客户端、车载设备等。


image.png


但随着业务的不断发展,基于 ECS 的运维架构逐渐暴露了很多问题,主要有:

1)弹性扩容太慢:流量洪峰时,需临时购买新机器再逐台部署,非常耗时也保证不了系统 SLA。


2)发版慢 & 易出错:互联网频繁发布是常态,但每次几百台服务器一台台部署发版非常慢,一不小心就出错。也尝

试过脚本化部署,跑顺确实省事,但当服务器组一多,脚本不断修改过程中,万一中间卡壳了,定位问题非常困难。


3)系统维护成本高:传统集群运维繁琐,人员技能要求非常高:既要精通 lua /ansible 脚本等,又要懂云产品网络

配置和监控运维。早期公司并没有专职运维人员,耗费了开发大量的精力,非常之痛。


4)容量规划难,资源利用率低:对流媒体行业,高峰期一般在中午或晚上,其它时间访问都比较低,但很难精准备容。

我们一般是按照峰值长期固定保有服务器,资源利用率相对比较低。


5)权限分配繁琐:面对企业多租户时,权限隔离往往是一个非常头疼的问题。尤其是新人到岗或者跨团队联调时,

配置用户组、RAM 权限,新机器登陆连接方式,非常繁琐,账号管理人员也时常会成为瓶颈。


一场热映电影加速了南瓜电影技术升级思考


相信会有很多企业也面临和我们一样的难题,同时也制约着公司的发展。但开发人员都存在一定的惰性,认为只要不

出事就先继续耗着。而真正让我们下定决心做技术升级的,还得感谢 19 年的那场热映电影。

那天早上接到同学的电话说业务压力大,我说:“不可能,一般早上流量比较少”, 他说:“不知道,各种业务都

开始预警,我已经开启了预案,不断的买买买机器了”。后来才知道 1 个小时内新增注册用户突破 80W+(是平时

峰值的 5 倍以上),对南瓜电影来说是一个巨大的挑战和机遇。很快服务器直接崩了,流量总入口 API 网关撑不住,

紧接着后端服务、数据库都异常。


大家紧绷着神经,开始了全链路紧急扩容:从买 ECS,上传脚本到新机器,运行脚本,扩容 DB…... 整个过程断断

续续对用户产生影响,有些用户直接访问不了,持续了 4 个小时才最终完全恢复。

因平台都是付费客户,那天我们的客服电话从早上忙到晚上,不断有用户来投诉,说早上不能使用,要求赔偿。


image.png

所以,像这种突然袭击对团队来说是比较锻炼团队的事,而对公司来说是损失比较大的事。我们对那天所有打开  APP 的用户都进行了赔偿:当天使用全部免费,这也是业务层面的损失。不过最终因为这场电影,南瓜电影的日新增注册用户一路高涨,业务增速明显。但回顾整个运维过程,耗时 4 个小时,太惊险刺激了,我们不想再经历第二次了。


《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——南瓜电影 CTO 庄徐麟分享如何在 7 天内全面实现业务 Serverless 化(2) https://developer.aliyun.com/article/1232778

相关实践学习
函数计算部署PuLID for FLUX人像写真实现智能换颜效果
只需一张图片,生成程序员专属写真!本次实验在函数计算中内置PuLID for FLUX,您可以通过函数计算+Serverless应用中心一键部署Flux模型,快速体验超写实图像生成的魅力。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
11月前
|
小程序 前端开发
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
校园跑腿小程序系统是一款创新解决方案,旨在满足校园配送需求并拓展校友网络。跑腿员可接单配送,用户能实时跟踪订单并评价服务。系统包含用户、客服、物流、跑腿员及订单模块,功能完善。此外,小程序增设信息咨询发布、校园社区建设和活动组织等功能,助力校友互动、经验分享及感情联络,构建紧密的校友网络。
411 1
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
8224 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
数据库 开发者 微服务
微服务架构下的数据一致性挑战与解决方案
在当今的软件开发领域,微服务架构因其灵活性和可扩展性而受到广泛青睐。然而,这种架构风格也带来了数据一致性的复杂问题。本文将深入探讨微服务环境中数据一致性面临的挑战,并提出一系列解决策略。我们将以实际案例分析如何应用这些策略,并讨论它们在不同场景下的利弊。文章旨在为后端开发者提供一套实用工具和方法,帮助他们在设计和实现微服务时确保数据一致性。
493 26
|
12月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
算法 前端开发 定位技术
地铁站内导航系统解决方案:技术架构与核心功能设计解析
本文旨在分享一套地铁站内导航系统技术方案,通过蓝牙Beacon技术与AI算法的结合,解决传统导航定位不准确、路径规划不合理等问题,提升乘客出行体验,同时为地铁运营商提供数据支持与增值服务。 如需获取校地铁站内智能导航系统方案文档可前往文章最下方获取,如有项目合作及技术交流欢迎私信我们哦~
1108 1
|
关系型数据库 Serverless 视频直播
Serverless高可用架构解决方案评测
Serverless高可用架构解决方案评测
349 114
|
SQL 弹性计算 运维
云卓越架构:稳定性支柱整体解决方案综述
阿里云卓越架构聚焦于五大支柱,其中稳定性是关键。常见的云上稳定性风险包括架构单点、容灾设计不足和容量规划不合理等。为提升稳定性,需从架构设计时考虑容灾与容错、实施变更时遵循“三板斧”原则(灰度发布、可观测性和可回滚性),并确保快速响应和恢复能力。此外,通过客观度量、主观评估和巡检等方式识别风险,并进行专项治理。识货APP作为成功案例,通过优化容器化改造、统一发布体系、告警系统和扩缩容机制,实现了99.8%的高可用率,大幅提升了业务稳定性。
|
Serverless 决策智能 UED
构建全天候自动化智能导购助手:从部署者的视角审视Multi-Agent架构解决方案
在构建基于多代理系统(Multi-Agent System, MAS)的智能导购助手过程中,作为部署者,我体验到了从初步接触到深入理解再到实际应用的一系列步骤。整个部署过程得到了充分的引导和支持,文档详尽全面,使得部署顺利完成,未遇到明显的报错或异常情况。尽管初次尝试时对某些复杂配置环节需反复确认,但整体流程顺畅。
310 3
|
运维 关系型数据库 MySQL
Serverless高可用架构解决方案评测
云上Serverless架构提供了一套完整且高效的解决方案,无论是从成本、功能还是性能上都表现出色。对于想要上云的企业来说,这是一个非常值得考虑的选项。
424 58
|
消息中间件 监控 Cloud Native
云原生架构下的数据一致性挑战与解决方案####
在数字化转型加速的今天,云原生架构以其轻量级、弹性伸缩和高可用性成为企业IT架构的首选。然而,在享受其带来的灵活性的同时,数据一致性问题成为了不可忽视的挑战。本文探讨了云原生环境中数据一致性的复杂性,分析了导致数据不一致的根本原因,并提出了几种有效的解决策略,旨在为开发者和企业提供实践指南,确保在动态变化的云环境中保持数据的完整性和准确性。 ####

热门文章

最新文章