文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问各位大佬，flink mysql cdc2.3通过HoodiePipeline写hudi，因my

请问各位大佬，flink mysql cdc2.3通过HoodiePipeline写hudi，因mysql字段会有变更，如何可以做到hudi动态建表呢？有知道的大佬能提供下思路吗？

展开

收起

真的很搞笑 2023-05-09 13:43:55 343 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

武当张三丰丶

存在即是合理

要实现Hudi动态建表，可以使用Hoodie提供的SchemaManager和FileSystemStateStore。

首先，在HoodiePipeline中创建一个SchemaManager对象，用于管理Hudi表的schema变化。当MySQL字段变更时，可以调用SchemaManager的updateSchema()方法来更新Hudi表的schema。这个方法会根据MySQL表中的变更数据生成一个新的Hudi表。

其次，需要使用Hoodie的FileSystemStateStore来管理Hudi表的状态。在HoodiePipeline中创建一个StateStoreFactory对象，用于获取FileSystemStateStore对象。然后，将Hudi表的元数据(包括表名、分区键、列族等)存储在StateStore中。这样，当MySQL字段变更时，可以从StateStore中读取旧的Hudi表元数据，然后使用新的元数据来创建一个新的Hudi表。

最后，在HoodiePipeline中创建一个HudiWriter对象，用于将Hoodie表中的数据写入HDFS或云存储中。当MySQL字段变更时，可以调用HudiWriter的commit()方法来提交Hudi表中的更改。如果没有提交，那么下一次执行任务时会重新创建一个新的Hudi表。

总之，通过使用SchemaManager和FileSystemStateStore,可以在HoodiePipeline中实现动态建表的功能。当MySQL字段变更时，可以根据变更数据生成新的Hudi表，并将旧的元数据存储在StateStore中。这样就可以避免重复创建Hudi表的问题，提高数据处理效率。

2023-05-11 19:40:49

赞同展开评论

问答分类：

关系型数据库 MySQL 流计算云数据库 RDS MySQL 版实时计算 Flink版

问答标签：

实时计算 Flink版mysql flink云数据库 RDS MySQL 版云数据库 RDS MySQL 版flink 实时计算 Flink版hudi 云数据库 RDS MySQL 版hudi

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

有没有用 flink cdc 和spark hudi集成的？

279

0

0

Flink有朋友遇到过hudi cow表写mor表报字段问题吗?字段是有的，但是报错?

340

4

0

Flink CDC里cdc2.3，同步从库。initial模式报错是为什么？

342

1

0

Flink CDC里我cdc2.3升级3.0，flink最低版本要求是多少？

250

1

0

未来在 Flink CDC 写入 Hudi 的技术上有哪些规划？

211

1

0

在 MySQL 中监控多表并使用 SQL 写入 Hudi 表时，如何简化为单 job 同步整库？

148

1

0

你们是如何解决Hudi与Flink的checkpoint一致性问题的？

252

1

0

在Hudi on Flink的初期使用中，你们遇到了哪些问题，并与Hudi社区一起进行了哪些优化？

197

1

0

为什么选择Flink和Hudi作为增量化方案的核心组件？

327

1

0

flink cdc写入hudi的用hive管理元数据的表，这个是什么问题呢？

290

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

三个月的脏数据没人发现：一套MySQL数据校验方案分享

批量DML的性能与一致性：不是所有“批量操作”都应该用批量SQL

将 Lazada 爬取结果落地 MySQL：PHP 数据持久化实战

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

相关解决方案

更多

Flink 与 Hologres 搭建实时数仓

Flink CDC 实现企业级实时数据同步

通过 RocketMQ 实现分布式事务

云上高可用架构

快速集成分布式任务调度

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink cdc sqlserver 希望不同步某些数据行

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

Flink CDC 能适配达梦不？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

深入了解 Flink 网络栈（二）：监控、指标和处理背压

Flink: 快速构建统一的实时日志平台

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于 Flink 构建 CEP 引擎的挑战和实践

展开全部

还有其他疑问?