阿里云函数计算 FC 助力高德 RTA 广告投放系统架构升级

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 阿里云函数计算 FC 助力高德 RTA 广告投放系统架构升级

作者 : 赵庆杰(阿里云函数计算)、林雪清(阿里云函数计算)、杜玲玲(高德)、王壁成(高德)


导言


2023 年春节,经历了三年的疫情后,我们终于在春天迎来了曙光。国人的出行热情空前高涨:回家看看父母亲;心心念念的旅行终于可以成行了。按照高德的估计,2023 年春节出行的峰值流量将比 2022 年同期和 2022 年十一都有相当大比例的增长。然而,就在不久前,受疫情的影响,系统的流量还在相对低位运行。


如何在短时间内快速完成春节出行的备战准备工作,保障系统在春节流量高峰下平稳运行,让民众出行所必需的导航等信息服务访问可以丝般顺滑,成为了摆在技术人员眼前的迫切事情。要在流量变化很大的情况下保障系统平稳运行,同时做到降本增效,怎么做到呢?


过去几年,高德一直在坚定、持续地推进应用的 Serverless 化。经过深入的研究和选型,最终选择阿里云函数计算 FC 作为其应用的 Serverless 计算平台。过去的一年,更是取得了长足的进展。


高德在 Serverless 上的远见帮助他们以更加敏捷、经济的方式应对不确定性以及强劲复苏的春节出行:不用费心考虑流量变化带来的资源变化,无需提前按照峰值流量准备大量的计算资源,不用担心资源是否足够,经济成本大幅下降、研发和运维效率明显提升。


基于之前的 Serverless 成果,高德相关业务快速完成了春节出行备战准备工作,春节保障顺畅完成。


我们一起来看一个典型的案例:在 2022 年阿里云函数计算 FC 是如何助力高德 RTA 广告投放系统实现架构升级的。


业务背景


什么是 RTA

RTA 是一种实时的广告程序接口,通过发挥媒体与广告主双方的数据、模型能力,实现实时的广告优选;RTA 是一种接口技术,更是一种策略导向的投放能力。

广告媒体通过高德的 RTA 接口,来询问是否要投广告,RTA 的服务通过查询高德自己的人群信息,返回投放结果。这样媒体投放广告可以更精准。


原系统的架构&问题

image.png

原系统服务器占用较多,依赖链路较长,每次扩容,依赖服务也需相应扩容,造成资源占用较多。


技术选型


人群命中功能

人群命中功能,本质可以归结为检索某个元素是否在一个集合中的问题。


这类问题,业界常用 bloom filter 进行解决。bloom filter 的本质是一组 hash 算法和 bitmap 的组合。优点是查询效率高,占用空间小。Redis 扩展版提供了 bf(bloom filter)功能。由于读取是用 golang写入是用 Java 的写入,为了避免跨语言带来的库不一致,可能存在的 bloom filter 不同实现导致的命中不一致的问题,可以采用 Redis 扩展版的 bf(bloom filter)功能,在 Redis 服务端实现 bf 功能,保证不同语言调用的数据一致性。


借助 Redis 来实现人群命中功能,就可以去掉算法网关,数据中台侧的很多资源也可以因此节省下来。


数据同步

目前圈人平台的数据更新有 4 种类型:在线、实时离线单次离线周期。

目前的圈人策略都是基于离线人群进行圈定。后续虽然有可能使用在线和实时的情况,不过由于 RTA 广告圈定的人群一般较大,实时人群的变化的比例较低,且媒体端均有缓存,实时性要求不高。使用实时,在线人群和离线人群的效果区别不大,所以目前建议只使用离线人群作为主要圈人手段,如果对实时性要求较高,可以考虑离线周期为小时维度的更新(本质上实时性取决于 UDF 更新频率和触发方式)。综合考虑离线周期更新 Redis 的方式。


Serverless 化

为什么要 Serverless 化

image.png

通过重新划分应用和平台的界面,Serverless 使得业务可以专注自身业务逻辑,人人都可以快速开发出一个稳定、安全、弹性、可扩展的分布式应用成为可能。


如何实现 Serverless 化

新的技术选型里,引擎服务需要访问 Redis。这是一个有着高频存储访问的系统如何 Serverless 化的问题。


一般认为 Serverless 就是 FaaS+BaaS。FaaS:Function as a Service,函数即服务,一般是各种后端微服务。BaaS:Backend as a Service,就是不适合以 FaaS 形态存在的后端服务,比如存储服务。


Serverless 化的系统架构对云存储提出很高的要求,在可扩展性、延迟和 IOPS 方面,云存储需要能够实现与应用同等/接近的自动扩缩容能力。


阿里云提供 Redis 企业版服务,集群架构版本提供多种实例规格,支持最高 2G 总带宽,6000 万的 QPS。支持调整实例的架构、规格等,以满足不同的性能和容量需求。可实现无感扩缩容。可以满足引擎服务 Serverless 化之后对存储的要求。


而 FaaS 是目前后端微服务 Serverless 化最常见的技术选型。阿里云函数计算 FC 是 Forrester 测评认定的全球领先的函数计算产品,在公有云和集团内都积累了丰富的应用 Serverless 化经验,是合适的选择。


高性能要求

RTA 广告投放系统作为为外部媒体提供相关服务的系统,具有大流量,延迟要求高的特点,是典型的高性能要求场景。这样的场景里,客户端设置的超时时间一般都很短,一旦超时,接口调用就会失败。采用 Serverless 的架构之后,请求的流量会先打入阿里云函数计算 FC 的系统,然后转发到函数实例进行处理。在这个场景里,要求函数计算 FC 的多租户、大流量的情况下,将请求处理的系统耗时(不包括函数自身执行时间)的平均值、P99 值控制在很低的水平,才能保证请求成功率 SLA 的要求。


落地方案


系统架构

image.png

新架构里,中台生成人群后,调用 Redis 的 BF.INSERT 等指令,生成 bf。引擎侧拿到设备 ID 后,通过 Redis 的 BF.EXISTS 指令,判断是否在对应的人群中。


特点:

1. 去除网关,减少链路长度
2. 设置缓存,离线系统和在线系统解耦,提升性能
3. 数据压缩,减少内存占用
4. 系统 Serverless 化,实现实时弹性和免运维,加快应用迭代速度


请求调度

前面我们提到高德 RTA 广告投放系统具有流量大,延迟要求高的特点,是典型的高性能要求场景。而阿里云函数计算 FC 是一个典型的多租系统,一个集群内不单单有高德 RTA 广告投放函数,还有非常多其它业务的函数。对函数计算 FC 的请求调度提出非常高要求:


  • 单函数 QPS 无上限,大量长尾函数不消耗资源
  • 调度服务要保证高可用,单点故障对服务无影响
  • 请求处理所需的系统耗时要控制在平均值小于 2ms,P99 值小于 10ms


我们来看看函数计算 FC 是怎么做到的。

image.png

为了实现实时弹性,当函数的请求到达函数计算 FC 的前端机之后,前端机会找调度节点(Partitionworker)要一个处理请求的实例,并将请求转发给它。调度节点接收到请求之后,如果有实例可用,则根据负载均衡策略获取一个实例并返回给前端机;如果没有,则实时创建一个,并返回给前端机。实例的创建时间可以达到百毫秒级别。


  • 为了保证高可用和横向可扩展,调度节点采用分区架构
  • 同一个用户/函数的请求映射在连续的分片区域内
  • 单函数请求可跨越多个分片,横向扩展
  • 调度节点(Partitionworker)通过心跳向分片管理器(Partitionmaster)汇报分片和节点状态
  • Partition master 通过移动/分裂/合并分片进行负载均衡
  • 调度 100 万函数,单函数最大峰值 20 万 TPS,调度延时小于 1ms
  • 任何节点故障,请求会被路由到其他 Partitionworker 上,对可用性无影响


我们看到一个请求需要通过前端机和调度节点的处理之后,才转发给具体的函数实例。因此请求处理的系统耗时包括前端机的处理时间、调度节点的处理时间、前端机和调度节点的通信时间以及前端机和函数实例的通信时间,过去一年,我们对函数计算 FC 的前端机、调度系统针对性的做了很多的优化,保证了系统在超大流量的情况下,请求处理的请求处理所需的系统耗时要控制在平均值小于 2ms,P99 值小于 10ms。


资源交付

Serverless 的场景下,业务不再需要关心资源的管理了,平台负责资源的管理和调度。业务流量上涨了,平台需要有能力快速刚性交付业务需要的计算资源;而当流量下降之后,平台需要将空闲的资源自动释放掉。


为了保证包括高德 RTA 广告投放函数在内的函数的资源刚性交付,阿里云函数计算 FC 持续优化了资源管理的实现。


Serverless 新底座:神龙裸金属+安全容器

一开始,阿里云函数计算 FC 采用 Docker 容器的形式来交付函数计算实例。因为 Docker 存在容器逃逸存等这样的安全问题,为了保证安全性,一台宿主机只会部署一个租户的函数。由于函数计算 FC 存在大量的长尾函数,函数实例的规格也往往比较小,比如只有 128M/0.1 核,这限制了资源利用率的提升。


为了解决这个问题,阿里云函数计算 FC 和相关团队合作,将资源底座全面升级到神龙裸金属+安全容器,借助神龙裸金属软硬一体化技术带来的虚拟化效率提升和安全容器安全性保障后实现的多租户高密混部,大幅提升了资源的利用率。


独立的资源管控

由于 K8s 集群的 Pod 产出效率很难满足 Serverless 每分钟几万个实例的创建需求,所以函数计算 FC 与相关团队合作,实现了 Pod 内的计算资源的进一步细分,由函数计算 FC 直接对 Pod 里面的容器进行管控,从而实现了高密部署,以及高频创建的能力。


毫秒级资源交付速度

相比较 K8s 分钟级以上的资源交付速度要求,Serverless 的场景需要将资源的交付速度提升到秒级、毫秒级。为了解决 K8s 基础设施启动耗时和函数计算 FC 对极致弹性强烈诉求之间的矛盾,阿里云函数计算 FC 实现了 Pod 资源池化、镜像加速、镜像预热、计算实例 Recycle 等等技术,保证了极速的资源交付速度。


高可用

为了实现高可用,阿里云函数计算 FC 的资源在每个 region 不止分布在一个K8s集群,而是多个 K8s 集群,做到了任何一个 K8s 集群出现问题,会自动地切换到正常集群的能力。每个集群都有多种资源池类型:独占资源池、混跑资源池和可抢占资源池。函数计算 FC 根据业务的特点,进行统一调度,从而把成本进一步的降低。

image.png

交付SLA

在资源的交付总量方面,目前阿里云函数计算 FC 已经有了单函数交付几万个实例的案例,由于函数计算 FC 有资源池池化动态补充的能力,理论上,函数计算 FC 单函数可以交付的实例数远不止几万个实例。在资源的交付速度方面,函数计算 FC 可以做到百毫秒级别的实例创建速度。遇到 burst 的情况,函数计算 FC 从以下两个维度来控制资源交付速度:


1. 突增实例数:可立即创建的实例数(默认 300);
2. 实例增长速度:超过突增实例数后每分钟可增加的实例数(默认每分钟 300)。
以上参数为可调整。


下图展示了在一个调用量快速增长的场景下函数计算 FC 的流控行为:

image.png


多机房部署

系统采用三单元部署,保证外部媒体都可以就近访问,降低网络时延。

image.png

业务效果


系统架构升级后,节省了几千核的机器资源,实现了全面 Serverless 化,调用链路变短了,系统变得更加弹性、健壮和易于维护,取得了很好的业务效果。


展望


在过去的 2022 年,高德在 Serverless 领域中已经取得了长足的进展, 然而这不是终点,而只是刚刚开始,后续阿里云函数计算 FC 会和高德一起推进应用的全面 Serverless 化,期望帮助高德在更多的场景去使用 Serverless,吃透 Serverless 给带来的技术红利 !

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
6天前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
19天前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
|
9天前
|
SQL 分布式计算 Serverless
阿里云 EMR Serverless Spark 版正式开启商业化
阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!
49 3
阿里云 EMR Serverless Spark 版正式开启商业化
|
8天前
|
缓存 物联网 数据库
如何帮助我们改造升级原有架构——基于TDengine 平台
一、简介 TDengine 核心是一款高性能、集群开源、云原生的时序数据库(Time Series Database,TSDB),专为物联网IoT平台、工业互联网、电力、IT 运维等场景设计并优化,具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能,能大幅减少系统设计的复杂度,降低研发和运营成本,是一个高性能、分布式的物联网IoT、工业大数据平台。 二、TDengine 功能与组件 TDengine 社区版是一开源版本,采用的是 AGPL 许可证,它具备高效处理时序数据所需要的所有功能,包括: SQL 写入、无模式写入和通过第三方工具写入 S标准 SQL 查
39 13
|
6天前
|
人工智能 运维 大数据
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
阿里云“触手可及,函数计算玩转 AI 大模型”解决方案评测报告
18 1
|
9天前
|
弹性计算 关系型数据库 Serverless
告别资源瓶颈,函数计算驱动多媒体文件处理方案:https://www.aliyun.com/solution/tech-solution/fc-drive-file
本文介绍了一种基于阿里云的一键部署解决方案,利用云服务器ECS、RDS MySQL、OSS、函数计算FC及MNS等服务,实现高效的多媒体文件处理。方案通过事件驱动机制,将文件处理任务解耦,并自动弹性扩展,按需付费,简化部署流程,提高处理效率。本文还提供了详细的部署步骤与体验反馈,展示了从配置到文件处理的全过程。
|
2月前
|
机器学习/深度学习 机器人 Serverless
FaaS 的应用场景
FaaS 的应用场景
|
2月前
|
Serverless API 异构计算
函数计算产品使用问题之修改SD模版应用的运行环境
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
2月前
|
运维 Serverless 网络安全
函数计算产品使用问题之通过仓库导入应用时无法配置域名外网访问,该如何排查
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
14天前
|
Kubernetes Java Maven
揭秘无服务器革命:Quarkus如何让Java应用在云端“零”负担起飞?
本文介绍如何使用Quarkus从零开始开发无服务器应用,通过示例代码和详细步骤引导读者掌握这一技术。无服务器架构让开发者无需管理服务器,具有自动扩展和成本效益等优势。Quarkus作为Kubernetes Native Java框架,优化了Java应用的启动速度和内存使用,适合无服务器环境。文章涵盖环境搭建、项目创建及部署全流程,并介绍了Quarkus的扩展性和监控工具,助力高效开发与应用性能提升。
24 9

相关产品

  • 函数计算
  • 下一篇
    无影云桌面