大淘宝技术行业FaaS化实战经验分享

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 本文将分享我们在FaaS化过程中的经验,尝试回答关于FaaS的Why、What、How三个问题,给对FaaS有兴趣的同学提供一些实践经验。

背景介绍

从2019年开始,作为集团FaaS的实践先锋队,大淘宝技术行业团队在FaaS领域摸爬滚打了三年,并在iFashion、天猫运动等多个业务场景落地。这篇文章是想分享一下我们在FaaS化过程中的经验,尝试回答关于FaaS的Why、What、How三个问题,给对FaaS有兴趣的同学提供一些实践经验。
业务背景

 行业业务特点

image.png

大家可以在手机淘宝搜索“淘宝吃货”、“iFashion”等关键词,会进入一个轻应用,这些轻应用都是行业运营的阵地。

image.png

上图展示了轻应用的典型数据逻辑。这些轻应用的主要逻辑都在BFF层,大量的需求都是进行接口和数据的拼装,比较适合FaaS接入。以运动频道的Feeds模块为例,其流程如上图所示。其中蓝色部分是运营小二的离线配置,红色部分为在线链路,这个流程对大部分的频道模块都是适用的。


行业数据逻辑的特点是大部分的数据能力都是已有的中台能力,我们只是在BFF层做数据的拼装。“重流程编排,轻数据资产”的特性,决定了行业频道的Java部分大部分时候都是在做一些接口的聚合调用,把数据组织成前端模块需要的结构占开发工作很大的比重。这种场景比较适合前端用FaaS来全部承接,去掉前后端对接的过程,即可以减少总体人力投入,又可以使前端能够深入业务底层逻辑。

 生产关系的转变

image.png

如上图所示,在FaaS化之前,传统的前后端分离的生产关系存在天然的缺陷。由于数据拼装本身和UI逻辑是强耦合的,分成两个人去做,会导致存在天然的边界不清、联调成本高等问题,导致整个需求的开发周期变长。我们希望把逻辑拼装交给前端来做,而后端下沉到数据中台,专心做对他们来讲价值更好的中台服务。这样可以实现三方共赢。改变之后的生产关系如下图所示:

image.png

 FaaS化进展和收益


大淘宝行业除了个别业务外,前后有超过10个轻应用完成了FaaS化,大部分需求由前端独立承接。前端在业务中从一个写页面的工具人,变成了深入业务逻辑,有业务话语权,并能推动业务发展的合伙人。


FaaS化对前端来说,本质上是进行了生产关系的转变,而这个生产关系的转变,不仅仅是我们抢了后端的活。任何团队在思考FaaS的时候,第一个想到的肯定不是怎么做,而是为什么这么做?带来的价值是什么?

image.png

我想从3个层次来说明FaaS化打来的价值,而这三个维度正如上图所示,其实是一个递进的关系:

  1. 赋能前端:从前端自己的角度来讲,通过FaaS扩大职责边界,可以更加深入业务,从一个业务资源变成业务的主人,才有可能真正为业务的目标起到自己的作用(而不是简单的接需求)。
  2. 提升总体研发效率:传统前后端分离的研发方式,每个需求都需要至少2个技术同学参加,且有大量时间在进行沟通和联调。现在需求只需要一个前端同学参与,且自己定义前后端接口和逻辑,更加灵活方便。
  3. 成为业务合伙人:对于产品运营来说,他们不是很关注研发效率,如何帮助促成业务目标,比如提升总成交额,是他们比较关心的。生产关系的转变,最终需要回归业务,需要思考如何为业务创造价值。这方面我们还在探索中,有一个方向是通过数据分析驱动精细化运营。


大淘宝FaaS解决方案


从19年的哇哦视频FaaS化开始(传送门 哇哦视频FaaS),FaaS解决方案经过3年的不断探索发展,已经有比较成熟解决方案,这是一个简化版的FaaS架构:

image.png

  1. Serverless研发平台提供了完善的FaaS研发链路,包括从创建、发布到运维的完整能力,并提供了多个个性化解决方案和租户自定义能力
  2. 基础设施层提供了FaaS Serverless 解决方案,包括:FaaS编程平面、丰富的中间件、运行时容器、高可用性保障等。
  3. 底层服务包括通用的算法、数据存储能力,行业团队自定义的服务以及二方三方的通用能力,这些能力都可以通过中间件进行调用


行业的实践经验


 怎么判断我的业务场景是否合适


虽然每个业务场景都有自己的特色,要不要用FaaS取决于两个方面:成本和收益。我们分别说说这两个方面应该如何考量。


成本

人力成本

由于前端做了更多的事情,无论总体研发效率是否提升,前端的工作量都是会提升的,当前团队是否有足够的时间和精力?

技术难度
  1. 复杂数据库、高并发、复杂离线任务等前端同学不熟悉的领域
  2. 当前大团队的技术架构是否支持FaaS,比如网关、依赖服务
收益
研发效率

通过减少联调、代码同构等方式提升研发效率

前端能力

前端可以通过FaaS扩大职责边界,更加深入业务。


正如前文所说行业团队目前是选择在“重逻辑编排、轻数据资产”的行业频道中进行FaaS实践,实际上除了做BFF编排之外,根据业务需要我们也做了离线任务、数据存储等大前端之外的工作。大家可以从上面的几个维度,来衡量RIO,再决定是否使用FaaS。


 如何从零开始在业务中落地FaaS


如果是新业务,评估过成本和收益的合理性后,用FaaS承接一般不存在问题。这里主要针对老业务,一般情况下我们都是对已有的业务进行FaaS化改造,有两种方案推进的方案:

  1. 一次性全部迁移
  1. 在天猫V榜、iFashion等业务中,我们采取的是全盘重构的方案,专门抽出一个月左右的时间把所有的Java代码翻译成等价的FaaS代码。
  2. 这个方案的好处是可以一次性解决历史遗留问题,以后可以专心做FaaS。难点是复杂的业务可能迁移时间很长,如果同时进行业务需求就会很被动,并且进行这么大的改动有较大风险。
  1. 新需求逐步迁移
  1. 运动、吃货等频道采取的是这个方案,在接新需求的同时,把已有的Java代码迁移成FaaS,一些改动很大的需求直接重写。对于没有需求的老模块,保持原状直到有新需求。
  2. 这样做的好处是循序渐进渐进,工作量和风险都可控;不足之处是持续时间比较长,且每次业务需求都会花额外时间进行代码迁移导致需求交付周期变长。


方案1都是早期进行时采取的,可以比较快拿到结果,但风险也较高。目前我们都是采用方案2,在业务中逐步进行FaaS化改造,也推荐大家采用方案2。

image.png

FaaS的研发链路相比于传统的前端研发,也多出了很多环节。如上图所示,其中灰色的环节大家比较熟悉,橙色的环节对部分前端同学来说可能比较陌生。FaaS和前端最大的区别在于,我们需要关注2个新的方面:

  1. 数据逻辑:我们需要知道数据从哪里来,怎么接入,如何组织数据。
  2. 大流量场景:需要评估流量有多大,大流量下对整个系统的承载能力要有一定的要求。需要通过压测来保障大流量场景的稳定性
  3. 运维:即使Serverless少了很多运维工作,对数据的监控以及应急处理线上故障的工作还是必不可少的。


 稳定性保障


首次上线FaaS函数后,最担心的情况就是线上时不时会出现一些错误率、RT等告警,让人寝食难安。前端同学对传统后端的稳定性保障缺少经验,我总结了下,大家可以从如下几个方面保障业务的稳定性:

640.jpg

这里重点说一下流量评估和兜底方案。

  1. 流量评估:流量评估有两个目的,一是为了计算出对下游依赖服务的流量,二是为了计算出需要的容器数。
  1. 如何评估峰值流量QPS?对于大促场景,我们一般会结合去年同期的大促流量加上今年的预期做一个评估;对于一些日常流量比较稳定且均匀的业务,一般会可以用这个经验公式计算平均QPS:平均QPS = 日均PV/5万,用平均QPS乘以一个安全的系数作为峰值QPS
  2. 单容器并发能力?单容器的并发能力可以通过小流量的压测来确定,不过大部分时候不用特别精确,因为很可能业务需求的变更就会导致容器并发能力的变化,对于流量比较小的业务,很多时候就用默认值即可
  1. 兜底方案:线上接口无法做到100%的成功率,一方面因为任何Serverless容器都无法保障100%的稳定性,以阿里云为例,承诺SLA为99.975%(云服务器ECS服务等级协议);另一方面是接口依赖的下游服务也存在一些不稳定性。对于这种系统层面的风险,我们通过兜底方案来解决。兜底服务的原理,是每隔固定一段时间,就会把接口的成功数据写到服务器缓存和CDN中,如果接口出现问题,就会从缓存或者CDN中去读上一次写入的兜底数据。降级后的数据存在的一个问题就是无法做到千人千面,因为千人千面去存数据的话量太大。


云服务器ECS服务等级协议地址: https://terms.aliyun.com/legal-agreement/terms/suit_bu1_ali_cloud/suit_bu1_ali_cloud201909241949_62160.html?spm=a1zaa.8161610.0.0.291545367B6t5A


 其他一些经验

image.png

  1. 性能优化:FaaS函数理论上应该能达到和Java函数同等的性能指标,比如典型的招排补逻辑, RT 一般是在250ms左右。性能优化体现在两个方面:编码和架构。编码层面上应该尽量避免串行请求,减少不必要的字段解析和传输,灵活应用缓存。架构层面可以结合SSR、边缘计算等方式提升首屏性能。
  2. 人员能力一些前端同学对于后端架构了解不深,在刚开始做FaaS的时候面对大量的后端名词时候,往往会一头雾水,甚至无法正常评审业务需求。如果每次碰到不同的地方再去学习,很容易陷入到碎片知识总中,缺少对整个体系的整体认知。我们在很久以前对团队做过一个专题培训,并沉淀了一个系列文档,从大的框架上阐述了整个数据架构。
  3. 资产沉淀:FaaS实践中,约一半的工作都在进行各种字段的补全,我们把这些补全都根据实体的不同,沉淀到实体数据模型中。另外还有有一些通用的faas函数可以做成服务给其他的业务调用。这些都是比较有价值的FaaS资产。


低代码探索经验

image.png

在源码研发的过程中发现,行业业务大部分都具有一样的逻辑模式:召回->补全->排序。我们尝试通过一种低代码的方式,能减少这种重复的编码工作,用可视化的界面编排出这种数据逻辑。经过大半年的探索,我们创建了织郎平台,并在三个BU中生产了1000+接口,服务100+用户。
织郎平台提供了如下一些能力:

  1. 可视化编排:通过可视化操作编排出FaaS接口。
  2. 完整研发链路:创建、编辑、发布、监控等完整的研发流程,并且能大幅缩短构建发布时间。
  3. 运行时环境隔离:在相同容器中,运行时对租户和函数的隔离,可以极大提升容器的利用率。
  4. 开放协议:织郎定义了一套JSON协议和配套的SDK,业务方可以在这套能力上构建出符合自己需求的上层产品


总结


Node FaaS 对于前端工程师的意义在于它可以拓展我们的能力边界,让我们有能力用自己熟悉的知识去做更多的事情。而一旦我们用Node FaaS去做一些事情,那就不仅仅是我们自己的工作变了,而是整个研发的生产关系发生了变化。怎么从这个变化的生产关系中找到实际的价值,是我们需要深入思考和探索的。如果大家有做FaaS的打算,不要盲目开始,除了文中说的价值判断原则外,可以先问自己一个灵魂问题:

你们搞Node FaaS不就是抢了Java的活么?


相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
1月前
|
存储 运维 监控
Elasticsearch Serverless 高性价比智能日志分析关键技术解读
本文解析了Elasticsearch Serverless在智能日志分析领域的关键技术、优势及应用价值。
Elasticsearch Serverless 高性价比智能日志分析关键技术解读
|
20天前
|
监控 安全 Serverless
"揭秘D2终端大会热点技术:Serverless架构最佳实践全解析,让你的开发效率翻倍,迈向技术新高峰!"
【10月更文挑战第23天】D2终端大会汇聚了众多前沿技术,其中Serverless架构备受瞩目。它让开发者无需关注服务器管理,专注于业务逻辑,提高开发效率。本文介绍了选择合适平台、设计合理函数架构、优化性能及安全监控的最佳实践,助力开发者充分挖掘Serverless潜力,推动技术发展。
49 1
|
1月前
|
缓存 前端开发 Serverless
前端技术新趋势:从PWA到Serverless架构
【10月更文挑战第1天】前端技术新趋势:从PWA到Serverless架构
47 3
|
3月前
|
运维 Cloud Native 开发者
云原生技术演进:从微服务到无服务器的旅程
【8月更文挑战第20天】在数字化时代的浪潮中,云原生技术如同一艘航船,承载着企业转型的梦想与挑战。本文将深入探讨云原生技术的发展路径,从微服务的兴起到无服务器架构的革新,揭示这一技术演进背后的逻辑与动力。通过分析云原生技术的优势、面临的挑战以及未来的发展趋势,我们将描绘出一幅云原生技术演进的宏伟蓝图。
|
3月前
|
Cloud Native Serverless 云计算
云原生时代的技术演进:从微服务到Serverless
在数字化转型的浪潮中,云原生技术正成为推动企业IT架构现代化的重要力量。本文将探讨云原生技术的关键组成部分—微服务与Serverless架构—如何助力企业实现敏捷开发和高效运维。通过深入分析这两种架构模式的优势与挑战,我们旨在为读者揭示云原生环境下的最佳实践和未来发展趋势。
|
3月前
|
机器学习/深度学习 监控 Serverless
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
Serverless 应用的监控与调试问题之Flink在内部使用的未来规划,以及接下来有什么打算贡献社区的创新技术
|
3月前
|
Cloud Native 安全 云计算
云原生技术的未来:探索服务网格和无服务器架构
随着企业数字化转型的深入,云计算已成为推动业务创新的核心力量。本文将深入探讨云原生技术的最新发展趋势,重点分析服务网格和无服务器架构如何重塑云计算的未来。通过实际案例和技术解析,揭示这些前沿技术如何解决现代应用部署的复杂性,提高系统的可伸缩性和弹性。文章旨在为读者提供云原生领域的深度见解,并激发对云技术未来发展的思考。
97 0
|
5月前
|
人工智能 Cloud Native Serverless
云原生技术实践营 · 深圳站:Serverless + AI 专场开启报名!
“云原生技术实践营 · 深圳站 ——Serverless + AI 应用开发专场”是一场以 Serverless 为主题的技术活动,通过一个下午的时间增进对 Serverless 技术的理解,快速上手,活动受众以关注 Serverless 技术的开发者、企业决策人、云原生领域创业者为主,活动形式为演讲、动手实操。
|
5月前
|
人工智能 运维 Cloud Native
活动回顾丨云原生技术实践营 Serverless + AI 专场 (深圳站) 回顾 & PPT 下载
云原生技术实践营 Serverless + AI 专场 (深圳站) 回顾。
|
4月前
|
运维 Kubernetes Cloud Native
云原生技术的未来演进:探索服务网格和无服务器架构的融合
随着企业数字化转型的不断深入,云原生技术已成为推动现代软件开发的关键力量。本文深入探讨了服务网格和无服务器架构这两大云原生技术趋势,分析了它们各自的优势以及未来可能的融合点。通过对比分析和案例研究,我们揭示了这两种技术如何互补并共同推进云原生生态系统的发展,同时指出了实践中面临的挑战和潜在的解决方案。 【7月更文挑战第22天】
95 0