Lindorm CDC技术解析

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
日志服务 SLS,月写入数据量 50GB 1个月
简介: CDC (change data capture) 是一种捕获数据库变更数据的技术,通过CDC技术业务可以监听数据库表的插入、更新、删除等操作。CDC技术广泛的应用于数据同步、数据分发、数据采集、数据审计等领域。本文主要介绍阿里云NoSQL数据库 Lindorm,在CDC数据订阅方面的技术演进与思考。

背景

Lindorm作为阿里巴巴线上最大规模的NoSql数据库之一,全面支撑了淘宝、天猫、蚂蚁、菜鸟、阿里妈妈、高德、优酷、钉钉、大文娱等经济体业务,其中有将近1/3的Lindorm业务会使用数据订阅的功能,初步统计每天有将近500多TB数据从lindorm实时导出到TT、MetaQ、ODPS等其他系统,用于实时、离线计算、数据订阅、算法训练、数据备份等场景。然而,Lindorm产品上云之后,我们发现原先在集团内部使用的方案输出阿里云遇到了非常多的问题,这不得不让我们重新思考一套同时适合内外业务的数据订阅方案。


传统方案

过去Lindorm数据的数据订阅是通过Lindorm Exporter这个外挂组件来实现的,如上图所示,Lindorm Exporter在整条链路中作为一个外挂的Lindorm数据采集模块,采集Lindorm WAL(Write Ahead Logging)的数据并将其转存到消息中间件(类似Kafka),消息中间件一方面对外提供订阅的能力,可以对接流计算引擎进行实时计算,另一方面,消息中间件内置一些Connector能够自动的将数据归档到ODPS,用于离线的分析。然而,走Lindorm Exporter的导出方案也有许多的不足:

  • 链路长,运维困难,上下游出现异常定位问题困难
  • 存储成本高,例如Lindorm归档ODPS的链路,数据在中间过程转存多次
  • 数据转换 、数据清洗能力较弱
  • 产品化输出阿里云可行性偏低,由于系统依赖了消息系统,部署形态、计费复杂


Lindorm CDC方案

于此同时,我们也在思考是否可以借助Lindorm Exporter数据采集的能力实现一个Log-Based CDC去替换上图中虚线框内的采集组件和消息队列,并且让CDC能力作为Lindorm内核能力的一部分,从而缩短同步的链路,大大降低运维成本。

如上图所示,Lindorm CDC对外提供订阅能力,业务可以直接订阅Lindorm实时的变更数据。此外Lindorm CDC也对接了Flink生态,可以通过Flink DataStream API或者Flink SQL进行实时计算,这大大提高了数据转换 、数据清洗能力,并能借助于Flink Connector能力对接各种异构系统、数湖、数仓。


主流方案调研

前面章节聊了聊Lindorm CDC立项的原因,在项目立项之初,我们调研了市面上比较主流的CDC产品,从几个维度对产品能力进行了比较,比较的结果如下:

  • 从CDC实现机制看,目前主流的实现方式有两种:
  • Query-based CDC:需要持续执行Query查询(e.g. via JDBC)来获取最新的变更。
  • Log-based CDC:通过解析数据库的log文件来获取数据的变更e.g. MySQL’s binlog

相比于Query-based CDC,Log-Based CDC对于增量同步实现相对容易,在业务影响、性能等方面都更具优势,《Five Advantages of Log-Based Change Data Capture》这篇文章做了比较充分的总结。

  • 从全增量同步能力看,DynamoDB CDC和MongoDB Change Stream并没有提供全量的支持,一般可以通过扫表来获取全量的数据。
  • 从消息投递语义看主要分成顺序性和重复性,这两方面都是针对增量同步来说的。顺序性方面,绝大多数CDC订阅都是和数据写入的顺序保持一致。重复性方面,Dynamodb CDC 、MongoDB Change Stream提供了Exactly once的语义(这里的Exactly once是对采集端而言的),Flink CDC对接的许多数据源也具备此能力。Exactly once投递语义能够保证下游消费的数据不会出现重复。
  • 从架构角度去看,该表将架构分为单机和分布式,这里的分布式架构不单纯体现在数据读取能力的水平扩展上,更重要的是在大数据场景下分布式系统接入能力。
  • 在数据转换、数据清洗能力上,Flink CDC能借助Flink计算引擎底座的能力可以方便的对数据做一些过滤或者清洗,甚至聚合。其他系统往往在这方面比较弱,更多的是扮演数据采集的角色,复杂的计算只能通过对接计算引擎来弥补。


这里做个简单的总结,目前CDC的产品可以简单的分为两类:

  • 数据库内置CDC能力,如AWS Dynamodb、 MongoDB、SQL Server等数据库厂商将CDC作为数据库的核心能力,对外提供一体化的使用体验。这类CDC产品自行封装了底层复杂数据订阅逻辑,便于外部系统对接。它们在Transformation方面相对比较薄弱,更多的是把数据清洗、转化、计算等逻辑交给其他计算引擎来做。
  • 数据通道、数据集成相关产品会作为一个外挂系统来赋予数据库的CDC能力,比如Debezium CDC、Canal、Flink CDC,支持订阅多种数据源,并提供一定数据转化、清洗、计算的能力。比如Flink CDC支持订阅Mysql全增量的数据,并在此基础上做了不少的优化,《Flink CDC 2.0 正式发布,详解核心改进》做了比较充分的说明。


产品能力定义

通过上一章节的调研,结合Lindorm目前的现状,我们最终决定借鉴Dynamodb、 MongoDB的方式,将Lindorm CDC作为Lindorm内置的核心能力,封装解析底层文件、维护点位的复杂逻辑,并在此基础之上提供了Rowkey级别保序、行级别订阅的能力,这么做的好处有几点:

  • 对接Flink、Spark等计算引擎的过程中不再需要各自实现一遍复杂的订阅逻辑,大大简化对接外部系统的难度。
  • 统一接口,便于bug的修复,性能的优化,不会因为Lindorm内核版本更新出现代码冲突,降低外部插件的维护成本。
  • 核心订阅逻辑由我们自己来掌握,而不是在下游订阅端,便于问题的排查。

生态对接

   

在计算方面,我们希望Lindorm CDC可以通过KafkaStream、Flink、Spark Streaming等计算引擎来对数据进行清洗、转化、聚合计算。在异构数据系统对接方面,可以借力Kafka Connector、Flink CDC完成异构系统对接,并且Lindorm的数据能够很方便的入湖、入仓。

消息投递语义

在投递语义方面,我们认为Lindorm CDC需要具备以下能力才能满足绝大多数的业务需求。

  • 顺序性
  • 默认不严格保序,整体有序,异常情况下可能出现乱序
  • 支持RowKey级别保序
  • 重复性
  • At Least once - 默认模式,在出现系统宕机或异常的情况下可能出现消息重复
  • Exactly Once - 保证消息“仅一次”投递语义

内容格式

Lindorm CDC在订阅的类型上看齐了Dynamodb,提供如下几种订阅类型:

  • ROWKEY_ONLY - 只订阅变更的Rowkey
  • NEW_IMAGE - 返回更变后的行数据信息
  • OLD_IMAGE - 返回变更前的行数据信息
  • NEW_AND_OLD_IMAGES - 订阅变更前后的行数据信息

具体的内容格式上,Lindorm CDC借鉴了Debezium的格式,在NEW_AND_OLD_IMAGES模式下,内容全面包含了更新前后的记录信息,能够满足绝大部分的业务需求,具体格式如下:

{ 
"op": "u", 
"ts_ms": 1465491411815,
"before": { "id": "1004",
"first_name": "Anne Marie",
"last_name": "Kretchmar",
    }, 
"after": {
"id": "1004",
"first_name": "Anne",
"last_name": "Kretchmar",
    },
"source": {
"version": "3.2.0",
"db": "ld-xxxx",
"namespace": "default",
"table": "customers",
"ts_ms": 1465491411815    }
  }

Item

Field name

Description

1

op

  • c= create 表示记录为插入
  • u= update 表示记录为更新
  • d= delete 表示记录为删除

3

ts_ms

event写入kafka的时间戳

4

before

old image 的信息,更新前记录信息

5

after

new image 的信息,更新后的记录信息

6

source

event 额外信息, 支持额外添加

  • version = event 对应的版本号
  • db = Lindorm实例
  • namespace = 表的namespace
  • table = 表名
  • ts_ms = 记录更新Lindorm的时间


技术挑战

前面的章节,我们比较了各个主流的CDC产品,从而确定了Lindorm CDC所需要具备产品能力。这一章节,重点从投递语义、订阅格式、生态对接、底层存储等方面介绍lindorm CDC所面临的挑战以及在实现方面的思考。

投递语义

RowKey级别保序

保序是CDC一个很重要的能力,很多场景需要保证同一个行数据的变更消息按变更发生的时间有序输出到下游,各大厂主流数据库比如AWS Dynamodb,Azure Cosmos DB都提供了保序的CDC订阅能力。

对于一些单机数据库来说,做到保序是比较容易的事情,但是保序的实现对于Lindorm来说非常具有挑战,Lindorm是面向海量存储的NoSql数据库,其数据都是分布在成千上万的Region中,这些Region在整个集群运行的过程中会不停发生Split、Merge、Rebalance,同一个Region不同时段可能会在不同的Region Server上线,也就意味着同一个Rowkey的数据可能是打散在各个Region Server的WAL中的,并且各Region Server本地时钟存在误差,如果要实现全局保序,写WAL可能需要引入逻辑时钟的概念。

在保序能力上,Lindorm CDC参考了Dynamodb提供RowKey级别保序能力。之所以没有提供全局保序的能力,因为我们认为其不适用于大数据场景之下,全局保序的消费者往往只有一个,消费能力无法企及集群的写入能力,另外我们没有在实际客户中看到全局保序的需求。

关于保序实现我们内部也讨论过许多的版本:

第一种方式是改造Lindorm WAL写入机制,由原来机器粒度改为以Region为粒度组织日志数据,由于WAL本身在时间维度上是有序的,这样就能够按照一定顺序解析Region WAL,从而实现CDC的保序。然而这种方式对Lindorm的写路径改动比较大,会导致底层WAL过多,过多的文件句柄对性能、稳定性都会产生影响。

第二种方式是转存 + 排序,对Lindorm各个节点实时写入的数据按照RowKey进行分桶聚合,然后对汇总数据按照一定的时间窗口进行排序输出,这种方式对内核改动最小,然而实时性比较差,数据转存多次。

第三种方案也是我们目前所使用的的方案,我们引入了两个概念,第一个概念是Barrier,每当Region open的时候,就会往对应节点的WAL写入一个新的Barrier,Lindorm CDC在同步WAL中遇到了Barrier信息就会上报Master,Master根据Barrier中所包含的Region、点位等信息判断这个Region对应点位之前的数据是否同步完成,如果同步完成,对应的Barrier就会被放行,否则阻塞。第二个概念是RegionTraceLog,RegionTraceLog记录了Region的移动轨迹,Master通过回放RegionTraceLog来获取对应Region前后的移动路径,通过Region的轨迹路径以及Lindorm CDC上报各个日志的点位信息就能判断对应的Barrier是否可以放行。此外RegionTraceLog有定期清理的机制,避免数据过大。这种方式对于内核的改造比较小,延迟、性能上相比第二种方案也更具优势。

Exactly Once

在at-least-once投递语义下,异常情况往往会导致相同数据会被多次处理和发送,这就需要下游具备去重能力或者支持幂等执行,这大大提高了下游的逻辑复杂程度。此外如果业务的数据体量不小,去重阶段会导致流式计算引擎的StateStore暂用空间很大,导致高昂的使用成本。如果不去重,changelog内容会出现重复,聚合计算的结果可能会出错。基于以上原因Lindorm CDC增加了Exactly Once的能力,保证在异常情况下也能做到仅一次投递的语义。

实现Exactly Once需要做到对增量日志处理点位的精确管理,保证同一条消息在写入下游成功后不会再被重复处理,即保证数据写入和点位更新同时成功。因此,Lindorm CDC将消息消费的点位信息维护在StreamStorage(Lindorm流式计算引擎,后续的章节会介绍)中的Topic中,利用Stream Storage提供的事务写功能保证数据和对应的点位信息同时写入存储层。如此,当worker节点发生宕机,master可以通过回放Topic中点位信息来获取失败任务最近一次写入成功的点位,并将失败的任务发往存活的worker,之前没有写入成功的事务会被Abort,随后开始断点续传。

由于Lindorm CDC采用分布式架构,将不同增量日志的消费任务分发给不同节点处理,需要避免同一任务因worker节点假死等情况分发给不同worker而引起的重复消费。由于StreamStorage提供了写入时的Fence机制,Lindorm CDC利用该机制实现了任务级别的隔离。综上,对于worker来说,增量日志消费任务的步骤可以概括为Fence(阻止其他相同ID任务继续写入)、读取日志最新消费点位(强制读取到offset topic的最新数据)、开始处理日志 、同时写入数据和对应点位。

StreamStorage中存储的点位信息不可能是无限增长的,数据存在过期时间。因此CDC Master采用了Checkpoint机制,将某一时刻所有日志点位信息和当前Offset Topic的消费位置持久化到zk中,在宕机恢复时,可以通过Checkpoint恢复+Offset Topic回放的方式来恢复点位信息。

订阅内容

行级别订阅

之前的产品能力一栏,我们认为Lindorm CDC需要具备对外提供订阅变更前后整行数据信息的能力,然而,Lindorm底层SSTable、WAL文件却是按照KV为粒度进行组织的。最早Lindorm的导出只支持KV级别的数据订阅,业务只能订阅变更的具体KV,为了获取变更KV所对应的整行数据,业务侧需要进行反查Lindorm,大量的反查请求会影响线上的业务。此外,业务也无法获取变更前的信息。

因此,我们在Lindorm CDC上做了改进,支持全增量的行级别订阅的能力。对于全量订阅来说,Dynamodb、 MongoDB通过扫表的形式获取全量的数据,大表扫描往往会对在线的业务产生影响,Lindorm CDC这方面做了优化,降低了对业务的影响,实现了Client端的RegionScanner,直接在Client端读取底层文件拼接成行,从而避免走API访问源集群。对于增量行级别订阅来说,我们改造了Lindorm的内核,数据在写入Lindorm的过程中,会将变更前整行数据一同输出到WAL中,从而让Lindorm CDC实现增量数据的行级别订阅的能力。

生态对接

接口定义

和MongoDB Change Stream不同的是,Lindorm CDC没有独立开发一套新的订阅SDK/API,接口的定义选择兼容了Kafka协议,下游可以通过Kafka客户端直接消费Lindorm CDC的数据,这样做的好处显而易见,Lindorm CDC可以无缝对接Kafka的生态。由于各大计算引擎都对Kafka做了支持,Lindorm CDC可以复用Kafka Connector,不用在开发各个计算引擎的Connector,一举多得。

SQL能力对接

为了让Lindorm CDC订阅的数据能够支持使用Flink SQL进行流式的处理,这里需要引入Dynamic Table 和 Changelog Stream两个概念,Flink官方文档《动态表 (Dynamic Table)》对这两个概念做了一定的解释,进一步深入可以看一下《Streams and Tables: Two Sides of the Same Coin》这篇论文,这里不进行过多的赘述。流式计算引擎中使用的表本质上其实就是一个Changelog流。如上图所示Lindorm CDC可以将Lindorm WAL实时写入的数据转化成ChangeLog流,从而业务可以自由的选择Flink DataStream API 、Table API或者Flink SQL的方式来处理Lindorm实时的数据。

流式存储引擎

前面的章节,我们介绍了Lindorm CDC兼容了Kafka协议,我们并非直接使用了Kafka,而是基于Lindorm DFS实现了一套自己的流式存储引擎,并在此基础之上提供了Kafka Proxy。Lindorm CDC将Lindorm WAL数据转化ChangeLog流存入流式引擎中供下游消费。流式存储引擎对上层提供Topic、Partition等概念的抽象定义,实际数据的冗余备份的逻辑下沉给Lindorm DFS,做到存算分离,并且基于Lindorm DFS我们可以实现无感知的数据压缩,冷热分离的能力。由于篇幅的限制,关于流式存储引擎的技术细节以及思考会在我的后续文章中进行介绍。

总结

本文主要介绍了Lindorm CDC项目诞生的背景,产品能力的定义,以及部分技术实现的细节。未来我们将继续从易用性、可靠性、性能、成本等多个方面持续投入,为Lindorm客户创造价值,为业务发展保驾护航。

参考资料

目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
97 10
|
4天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
18 4
多模态文件信息抽取:技术解析与实践评测!
|
7天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
7天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
6天前
|
人工智能 物联网 大数据
解密时序数据库的未来:TDengine Open Day技术沙龙精彩回顾
在数字化时代,开源已成为推动技术创新和知识共享的核心力量,尤其在数据领域,开源技术的涌现不仅促进了行业的快速发展,也让更多的开发者和技术爱好者得以参与其中。随着物联网、工业互联网等技术的广泛应用,时序数据库的需求愈发强烈,开源的兴起更是为这一技术的创新与普及提供了强有力的支持。
17 3
|
7天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
29 3
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
|
25天前
|
数据采集 存储 JavaScript
网页爬虫技术全解析:从基础到实战
在信息爆炸的时代,网页爬虫作为数据采集的重要工具,已成为数据科学家、研究人员和开发者不可或缺的技术。本文全面解析网页爬虫的基础概念、工作原理、技术栈与工具,以及实战案例,探讨其合法性与道德问题,分享爬虫设计与实现的详细步骤,介绍优化与维护的方法,应对反爬虫机制、动态内容加载等挑战,旨在帮助读者深入理解并合理运用网页爬虫技术。
|
1月前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
76 7
|
1月前
|
负载均衡 网络协议 算法
Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式
本文探讨了Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式,以及软件负载均衡器、云服务负载均衡、容器编排工具等实现手段,强调两者结合的重要性及面临挑战的应对措施。
78 3