使用Apache Hudi和Debezium构建健壮的CDC管道-阿里云开发者社区

使用Apache Hudi和Debezium构建健壮的CDC管道

2024-03-12 72

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用Apache Hudi和Debezium构建健壮的CDC管道

一篇在Bangalore Hadoop Meetup上分享的使用Apache Hudi和Debezium构建CDC管道，分享者是Apache Hudi社区活跃贡献者Pratyaksh。

CDC（CHANGE DATA CAPTURE）：是一种软件设计模式，用于确定和跟踪已变更的数据，以便可以对更改后的数据采取措施，一个简单的示例是捕获MySQL变更的记录，然后导入数据湖。

业务部门要求获取业务洞察力；服务所有者随着时间的推移要求验证记录的每个版本，数据工程师要求建立维护成本低的管道以从事务处理系统（MySQL， Postgres，Cassandra，Mongo）到分析系统（HDFS）CDC具有低延迟。CDC具有如下优势，事件处理，实时分析和展示板，审计日志，24小时负载工作。

对于CDC有不同的方案，如基于日志的Debezium和基于查询的JDBC Connector，如Sqoop，大多数公司在使用Sqoop来处理数据，处理数据源的模式变更并处理文件存储格式，但很难处理CSV等格式。

在过去，考虑到必须放弃开放性和社区支持，我们因此使用了Maxwell。

只要避免高频流处理，NiFi是一个很好的数据流工具，它具有很高的IO，因此磁盘可能成为瓶颈并且没有数据冗余，所以应该配置AWS EBS，此外，我们还必须给CatpureChangeMySql处理器打patch以便处理内存缓冲。

Debezium是一个得到了redhat支持的活跃项目。它基于KafkaConnect构建，并支持SQL和NOSQL数据库，它通过合并SQL info模式和Alter语句来更新已缓存的模式。

Bootstrap：由于binlog/WAL不会保留太久，因此是在首次启动时会处理整个数据库快照。

Databricks最近开源的Delta.io（前不久才支持Presto和Authena。Uber开源Apache hudi，存储格式只具有重写拆分功能（Athena）的parquet文件输入格式。Parquet格式-看起来有争议-但Spark社区（DS）的文件格式演变更好。Hive–尽管获得LLAP支持，但感觉仍然很慢（MR，TEZ）