阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 本文总结了阿里妈妈数据技术专家陈亮在Flink Forward Asia 2024大会上的分享,围绕广告业务背景、架构设计及湖仓方案演进展开。内容涵盖广告生态运作、实时数仓挑战与优化,以及基于Paimon的湖仓方案优势。通过分层设计与技术优化,实现业务交付周期缩短30%以上,资源开销降低40%,并大幅提升系统稳定性和运营效率。文章还介绍了阿里云实时计算Flink版的免费试用活动,助力企业探索实时计算与湖仓一体化解决方案。

摘要:本文整理自阿里妈妈的数据技术专家陈亮老师在 Flink Forward Asia 2024 流式湖仓(三)专场中的分享。分享的内容将分为三个部分:首先,介绍阿里妈妈广告业务的背景;其次,探讨阿里妈妈广告实时系统和数据湖架构的设计;最后,阐述我们在技术和业务层面从该架构中获得的收益。

一、业务背景

二、架构设计

三、整体收益

四、问答

一、业务背景

1.1 阿里妈妈广告业务介绍

简单介绍一下广告生态是如何运作的。广告首先需要广告主,因为他们是出资方。广告团队会在DSP等平台上创建和设置广告计划,投放计划包括目标人群、地域、时段以及预算等。广告主会选择合适的素材和创意,以吸引用户点击广告,实现广告投放目标。当所有信息在DSP平台上设置完成后,这些信息会同步到广告投放引擎中。

投放引擎的核心功能在于用户流量处理,流量源涵盖阿里系应用(淘宝、天猫、高德等)及外部媒体生态(字节、快手、知乎等)。引擎会根据用户在淘内的兴趣等属性实现精准广告分发。典型场景包括淘宝搜索广告推荐及信息流广告展示。

用户的搜索或浏览行为,都会产生广告曝光数据。当用户点击广告时,会产生点击数据。在电商场景中,点击广告并非最终目的。我们还需要引导用户进行收藏、加购、下单等操作。用户点击广告后,会进入广告主的商详页或店铺页进行相应转化操作。我们会收集到的转化信息,如收藏、加购、成交等,在此基础上进行进一步做转化归因分析。业界常见的归因模型包括线性、末次触点、首次触点、U 型、MTA 等模型,用于评估广告效果。所有数据评估完成后,需要将结果反馈给相关方。

在广告生态系统中,通常广告的计费依赖曝光/点击行为,曝光和点击的追踪过程可能会受到黑产攻击,导致平台或广告主的财产损失。为了保护平台和客户等,需要搭建广告反作弊体系,其中包含实时和离线的反作弊数据链路建设。同时,广告主设置的预算限制也不容忽视,我们不能让广告支出超出预算,否则广告主将不予认可。例如,如果广告主只愿意支付100元,我们却花费了1万元,那么超出的部分是无法得到支付的。因此,我们必须控制广告投放量,避免超投。整个广告生态系统相当复杂,涉及的链路很长,但数据必须准确且实时地反映给广告主,以便他们根据这些数据制定投放策略并调整预算。

1.2 阿里妈妈数据业务场景与诉求

结合上面的业务背景,这里引出妈妈SDS的业务场景和业务诉求。

(1)业务场景

  • 对外的实时报表:广告主需要查看各种维度的实时数据,例如曝光量、点击率CTR、转化率ROI等,以便实时了解广告的效果、预算是否需要增加或停投。
  • 对内实时分析需求:内部运营人员等需要对广告投放进行评估,对特定的人群、商品、场景等进行各种分析,查看广告投放后的人群效果、地域投放情况以及是否存在其他问题。因此,内部也需要实时和离线的分析。
  • 业务盯盘:对于一些关键的大促销活动节点,例如618、双十一、双十二大促活动时段,我们需要密切关注业务变化。包括流量是否达标、预算是否充足以及效果是否理想等,并依据实时数据灵活调整运营和投放策略。

(2)业务诉求

  • 灵活多变:阿里妈妈SDS对接的下游业务众多,每个出口都有其特定需求,变化迅速且迭代频繁。
  • 稳定可靠:整个系统需要实时数据供多人查看,不能出现任何中断或数据更新延迟。延迟后广告主会立即发现并提出投诉或停投,这可能导致严重问题,比如15分钟内就登上热搜。
  • 数据一致性:对于广告主而言,他们可以在多个系统上查看数据,因此数据的一致性至关重要,否则他们可能会质疑数据的准确性。

1.3 阿里妈妈数仓建设技术目标

  • 数据时效性:从技术角度讲,广告主希望数据尽可能实时,理想情况下是及时无延迟,目前我们提供的保障是分钟级别的数据更新。
  • 系统吞吐量:阿里妈妈这边处理的流量非常庞大,日均规模达到千亿级别,TPS高达千万级,读写具备很大挑战。我们期望系统在特定场景下,如新业务上线后,能够迅速回放数据,将数据快速刷新至系统中,因此快速回放是一个基本要求。
  • 稳定可靠:系统可用性≥99.9%。故障快速恢复“止血”。支持灰度发布,故障或问题往往发生在发布或变更时,因此灰度发布能力至关重要,灰度发布过程出现问题,系统能够及时回滚,避免故障影响持续和扩大。
  • 成本效益:正如那句老话所说,“既要马儿跑又要马儿不吃草”,我们希望用尽可能少的资源支持更多的业务。同时,我们也希望减轻开发和运维的负担,让自己能够从繁重的工作中解放出来,专注于更有意义的业务。

二、架构设计

在介绍业务之后,现在让我们来分享一下我们的架构及其演进过程。首先,让我们看一下简化后的系统链路图。

2.1 为什么需要实时数仓?

从图中可以看出,简化后的链路实际上非常复杂。在最初构建实时系统时,我们的目标是速度,要求系统能够迅速覆盖业务需求。如何实现快速呢?我们使用 Flink 进行数据消费,实时数据通过类似于Kafka的系统写入业务系统,使业务能够迅速启动。这是一种常见的手段和方法。通过这张图,我们可以清晰地看到同一份数据如何在不同的业务系列中被展示。每一条链路代表一个业务逻辑,虽然它们共享一套代码和一系列作业,但解析和消费的数据却是相同的。

这虽然带来了一些明显的好处,但重点是我们需要关注存在以下问题:

  • 需求灵活多变:首先,在业务层面,随着业务种类的增加,每个环节都需要维护和开发,这在灵活性和效率上构成了重大挑战。
  • 开发成本:其次,这种开发模式类似于烟囱式,缺乏复用性,导致了重复劳动。
  • 资源浪费:第三,所有数据都需要解析和消费,这实际上造成了资源的浪费,因为有些数据可能根本用不上,但仍然需要被解析和处理。
  • 数据口径:第四,数据口径问题,如果在某个业务系统中忘记或未能及时更新数据口径,那么输出的数据就会出现问题。
  • 运维成本:最后,运维方面,所有任务都需要我们自己完成,包括压力测试、性能调优和问题排查等,这些都需要投入大量时间和成本。

针对上诉存在的问题,我们提出了两个解决方案。

2.2 阿里妈妈实时数仓方案演进

(1)基于TT的实时数仓方案

a. 数仓分层

基于TT(类似于Kafka一样的消息队列)的实时数仓方案,实时数仓包含ODS、DWD和在线维表。

  • ODS层:业务所需日志,包括用户行为日志、广告日志,以及业务数据库中的转化消息、收藏、下单和成交等消息,都通过日志采集/DRC系统,将数据采集到TT中,作为实时系统ODS层数据。
  • DWD层:在实时链路中,系统利用Flink来消费TT数据并加工出DWD层数据。
  • 在线维表:ODS层可能会缺少一些常用的维度字段,这些字段的更新频率可能并不高,通常是按天更新。为此,我们设计了维表系统(iGraph)用以补充这些维度字段。同时,我们也会使用配置系统(diamond)补充部分信息,这些信息相当于维表信息,用于补充到DWD层。
b. 方案弊端
  • 数据重复:在下游消费DWD层数据时,大家可能会注意到ODS、DWD的作业,因为业务迭代或作业Failover会导致数据重复。在DWD层,是否需要去重取决于业务需求,但大多数情况下,去重是必要的,因为不去重会导致数据重复出现,比如广告主会立即注意到数据同比突然增长,从而引发投诉。
  • DWS层缺失:另一个问题是,从DWD层到应用层之间,可以增加一个DWS层,因为下层的聚合逻辑往往是相同的。但在TT中,由于不具备upsert能力,因此无法将 DWS层的最新聚合结果覆盖更早的聚合结果。举个例子,假设时间窗口为5分钟,10:05聚合一条数据写入TT,10:10时第二次聚合数据需要覆盖上一次聚合结果,但在TT中会存在两条记录。下游接入TT后,需要自行执行一次数据去重,这代价极高。经过测试,资源消耗至少增加一倍,且数据量大导致作业不稳定。不设计DWS层,则直接将聚合结果写入下游的在线存储系统,包括OceanBase、Hologres和ClickHouse三种。实时链路旨在解决时效性问题,即使有实时反作弊机制,其精准度仍不足。此外,业务上还需处理去重逻辑。
  • No Schema:实际上在 DWD 和 ODS 的实时链路中,我们面临的是一个未结构化的数据问题。这些数据在解析后并没有一个固定的Schema,导致下游如算法和BI分析在使用这些数据时,不得不自行进行解析和计算,这无疑增加了成本并浪费了资源。
  • 资源与效率:对于广告主而言,他们自然希望数据既快速又准确。因此,我们还部署了一条离线链路,这也是一个典型的lambda架构。将ODS层的数据同步到MaxCompute中并通过ETL加工产出DWD层,聚合DWD为ADS层最终同步到在线存储系统。由于需要维护离线和实时两套代码,这无疑使得开发和运维资源都翻倍。

(2)基于Paimon的湖仓方案

我们如何解决基于 TT 实时数仓面临的问题呢?幸运的是,从 2023 年开始,我们关注到 Paimon 技术栈,2023年6月开始调研 Paimon 技术并逐步在业务中推广应用。

方案优势

  • 主键表:本方案中ODS层同前一个方案一致,也是基于TT存储且入湖过程完全相同。但DWD层将原有的存储替换成了Paimon,同时新增DWS层设计。Paimon具备upsert操作,支持DWD和DWS层upsert写入实现去重,下游消费changelog即可。
  • Schema:此外,它还带来了另一个好处,即之前提到的算法、BI以及各种运营需求的数据,现在可以直接在DWD和DWS层进行查询。过去,这需要我们提供支持,而现在,数据表已经解析完毕,数据也已就绪,可以直接使用实时和离线查询。
  • 开发效率:实时离线统一schema,无需再次解析开发和计算开销,实时离线代码可复用。

关于离线链路,我们之前提到需要将数据同步至ODS这一步骤的原因何在呢?实际上,由于反作弊机制是基于离线处理的,它必须处理一批数据,这一步骤是不可或缺的。此外,这一流程还有另一个好处,即作为备份(Backup)链路。在ODS层完成数据解析后,我们可以将数据反向写入到Paimon中。这样对于下游查询而言,它们能够查询到经过修正后的数据。如果存在修正结果,则查询修正后的数据;如果没有修正结果,则直接查询实时数据。整个流程完成后数据再同步到ClickHouse中,用于支持下游的高频查询。

2.3 阿里妈妈广告湖仓架构

目前我们妈妈这边的广告湖仓架构如图所示。系统架构包含四个层次和一个运维平台。

  • 数据层:数据的最初来源目前仍然在TT中,整个系统依赖于 TT,所以这一部分保持不变。TT中包含了各种行为数据、广告数据以及成交转化等数据。业务数据库中的维表数据会增量同步到TT中。解析完这些增量同步的数据后,会将其写入iGraph中。TT数据则通过Flink进行 ETL 处理导入到我们的数据湖中,即 Paimon 表,包括DWD和DWS层。在这里有主备两套存储系统,双系统设计既用于异地灾备,也提供可用性和灰度发布能力。数据实时提供给消费者使用,而离线链路则有离线修正数据,这实际上是依赖于离线的另一条链路。这两套数据最终会合并在一起。
  • 计算层:所有的ETL过程,包括最终的数据写入存储,我们使用了Flink和MaxCompute计算引擎。
  • 存储层:配置主备两套系统,主备链路分别配置同步任务,确保主备同步的可靠性和独立性。
  • 应用层:妈妈报表、BI、算法、达摩盘等应用。
  • 运维平台/工具:系统监控、系统运维、自动压测。

这种设计实际上构成了一个三链路架构,包括两个实时链路和一个离线链路,实时链路能够支持日常的灵活切换。至于离线链路,它为整个系统提供了备份,以防Flink出现问题时,我们至少还有离线数据作为保障。尽管我们不希望出现问题,但我们的架构设计要求我们必须做好准备。此外,它还作为大促活动的备份方案。对于高频大规模查询,我们现在使用ClickHouse来处理,能够应对万级TPS的应用场景。对于小流量场景或更灵活的查询,我们支持使用 MaxCompute。需要注意的是,这可能会对时效性产生一定影响,可能是小时级别的。我们还在探索使用StarRocks和Hologres进行灵活的点查和分析。上游应用主要包括报表、BI 监控、算法以及实时和批量的数据洞察。这些构成了四个层次。最右侧,我们拥有自己的运维工具和平台,这是因为我们的作业规模较大,需要进行各种监控,例如组间延迟和问题检测。例如,若存在写入问题、消费问题、中间过程状态问题,或特定节点问题,这些都需要监控,因为这是一个全局监控过程。我们设计了这样的系统以应对可能出现的多种问题。我们拥有自己的实时作业运维平台和压力测试平台,因为对于大数据场景而言,压力测试是不可或缺的。由于每年流量和业务的变化较大,不进行压力测试可能会导致各种问题的出现。

2.4 Paimon 常见优化手段

前面我介绍了我们整个湖仓架构的演进过程,以及我们对下一个架构的展望。在这里,我想分享一下我们在构建湖仓时采用的一些常见优化策略。

  • 性能优化

    • 强烈建议根据使用情况启用异步 Compact 功能,这能显著提升系统的吞吐量,包括单表写入的吞吐量和稳定性。

    • 其次是调整Checkpoint interval time,这需要根据流量情况进行调整。例如,对于流量在十万级别的系统,可能不需要调整,但对于百万甚至千万级别的系统,必须增大Checkpoint interval time,以避免频繁checkpoint导致的堆积和各种反压问题。

    • 对Writer节点资源的调整,这同样需要根据流量情况进行预估,比如参照bucket数调整并行度,在数据追溯和回刷时,这些调整尤为重要。Writer节点的内存配置也需根据场景进行调整,因为我们的场景通常流量较大,所以需要进行调整。

    • 最后,根据业务特点,分区的选择和设置,以及bucket数设置。一旦我们建立了一个Paimon表,之后再去调整其分区或切换到bucket数,都需要经历一个 Rescale 的过程。这可能需要停止系统,代价相对较大。因此,在考虑峰值情况下,我们需要评估性能是否能够满足需求。

  • 存储优化

    • 文件生命周期管理:在执行Checkpoint时会产生许多小文件。如果生命周期表设置得过长,小文件的数量自然会增加。尽管有合并操作,但在高流量场景下,生命周期管理的问题不容忽视。这包括分区、生命周期、快照以及变更日志的生命周期管理。
    • 小文件合并:文件合并可以开启独立compact作业完成。小文件合并是当前阶段需要关注的问题,社区可能会提出新的解决方案,大家可以继续关注。
    • 清理废弃文件:在初期使用时,我们可能会遇到性能优化不佳或稳定性差异的问题,导致作业频繁失败,产生一些孤立文件。这些文件需要手动清理。社区提供了一些通用命令,我们可以用这些命令来编写自己的清理脚本,并进行定时调度以解决问题。实际上,存储优化主要解决的是文件数量问题,而不是文件大小问题。
  • 稳定性优化:稳定性问题在流量大时尤为突出,可能会触发故障。例如,内存设置不合理或对流量峰值预估不足,都可能导致系统无法恢复。尽管我们设置了生命周期和快照文件的过期时间,但一旦它们过期,作业可能就无法恢复。

    • 开启Comsumer:为此,我们提供了 Consumer 的能力,可以将 Consumer ID 标记出来,使其在一定时间内或永远不过期,从而在作业失败后仍能恢复。但需要注意的是,启用Consumer后,文件数量会增加,因为过期时间变长了。在追溯时,系统会逐个扫描Snapshot文件,最终追溯的数据量会增加,速度会变慢。
    • 调整TM资源:TM cpu/mem资源的调整应根据具体情况进行。Paimon团队提供一些经验公式,可以根据实际情况进行调整,例如根据一张表的更新频率、一条记录的大小以及Bucket的数量等,从而估算出内存需求。根据经验进行配置,特别要注意的是,使用过Paimon的用户应该熟悉它最后的 Commit节点。这个节点确保了数据最终一致性,因此在配置到这个节点资源时,如果分区数量众多,就需要适当增加 CPU 和内存资源,以保证系统运行更加流畅。

下面是一个优化例子,我们曾经完成了一个作业,一个小时写入了700+GB数据。根据这个作业,我们设置每个分区的bucket num为512,每小时一个分区。生命周期设置了7天,支持实时数据流读写。在这样的设置下,TPS(每秒事务数)可以达到五六百万。在开启异步处理之前,节点切换的平均耗时超过 50 秒,而开启后则缩短至 20 秒。

三、湖仓收益

接下来,我想分享一下我们通过这些优化带来的业务和技术收益。

  • 业务收益

    • 由于采用了分层设计和弧形设计,下游的许多迭代工作变得简单,只需编写一段代码,进行Group By或Join操作即可,大大缩短了交付周期。整体统计下来,交互周期缩短了约30+%。

    • 实时的 DWD和 DWS层的数据可以用于洞察场景,无需通过离线处理,通常在15分钟内就能产出一批数据。整体观察下来,时效能减少约两个半小时,平均节约两个小时。

    • 实时数据监控也大大改善了业务运营的效率。以前,业务运营人员在数据更新超过两小时后会感到焦虑,不确定是否需要增加预算或停止投放。现在,由于数据是分钟级产出,运营人员能够准确判断整体投放进展和预算是否达到预期。

  • 技术收益

    • 主要减轻了我们的计算资源负担。通过去除重复消费的链路,整体资源开销降低了40%以上。
    • 分层设计提高了业务效率,减少50%开发工作量。
    • 架构中提到的主备双链路设计,满足了三个 9 的高可用性要求,即 99.9%的运行时间。一年 365 天计算下来,停服时间应该不到 9 小时。实际上,我们全年几乎没有长时间停服,如果出现这种情况,你们肯定能在热搜上看到我们遇到了问题。
    • 最后是这个冗余作业的这个订阅之间,因为是这样的,就是我们去订阅这个TT,其实它是要付费的,就是你重复消费一遍,它个钱就是重复给你算一遍,这个都是钱。就是所以以及我们的Flink作业这个资源就是开销也很大,这个东西就是都是钱,所以整体算下来都是成本,另外就是你把些作业干掉了之后,我也不用天天盯着些作业,运维成本同步下降。

更多内容


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3天前
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
京东物流基于Flink & StarRocks的湖仓建设实践
|
1月前
|
存储 SQL Java
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
285 1
Flink CDC + Hologres高性能数据同步优化实践
|
1月前
|
SQL 存储 调度
基于 Flink 进行增量批计算的探索与实践
基于 Flink 进行增量批计算的探索与实践
基于 Flink 进行增量批计算的探索与实践
|
1月前
|
存储 运维 BI
万字长文带你深入广告场景Paimon+Flink全链路探索与实践
本文将结合实时、离线数据研发痛点和当下Paimon的特性,以实例呈现低门槛、低成本、分钟级延迟的流批一体化方案,点击文章阅读详细内容~
|
1月前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
|
SQL Kubernetes Cloud Native
开发者社区精选直播合集(三十六)| Flink实践合集
Flink 作为业界公认为最好的流计算引擎,不仅仅局限于做流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎,以其高吞吐低延时的优异实时计算能力、支持海量数据的亚秒级快速响应帮助企业和开发者实现数据算力升级,并成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设实时计算平台的首选。
开发者社区精选直播合集(三十六)|  Flink实践合集
|
7月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
5月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
2270 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
zdl
|
5月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
261 56
|
3月前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
292 0
Flink CDC 在阿里云实时计算Flink版的云上实践

相关产品

  • 实时计算 Flink版