文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC 中mysql cdc的schema读取阶段是不是单线程串行的？

Flink CDC 中mysql cdc的schema读取阶段是不是单线程串行的？

展开

收起

真的很搞笑 2023-07-02 16:53:58 216 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

Star时光

非常抱歉，之前的回答有误。在 Flink CDC 中，并没有版本可以直接解决新增字段之前数据不同步的问题。

Flink CDC 是基于变更日志（CDC Events）来消费数据的，而在表结构发生变更之前，变更日志中是不包含新增字段的数据的。因此，无论使用哪个版本的 Flink CDC，都无法直接从变更日志中获取新增字段之前的数据。

如果您需要同步新增字段之前的数据，可能需要考虑其他方式，例如手动编写代码来处理历史数据同步或者使用其他工具进行数据迁移。

非常抱歉给您带来了困扰，请忽略之前回答中的错误信息。如有其他问题，请随时提问。

2023-07-30 12:54:47

赞同展开评论
算精通

北京阿里云ACE会长

Flink CDC 中的 schema 读取阶段默认是单线程串行的。
具体来说,Flink CDC 为每个 MySQL 或 PostgreSQL 数据库分配一个 canal client 实例。
在初始化阶段,每个 canal client 会从数据库中读取表结构(schema)信息,这个过程是单线程串行进行的。
Flink CDC 会做如下操作:
读取数据库中的所有表结构(表名、字段名、字段类型等)
根据表结构创建 Flink TableSchema 对象,作为后续数据的 Schema
创建对应的 Flink DataStream 用于消费数据库变化日志
这个 schema 读取阶段是单线程串行的,也就是说 Flink CDC 一个 canal client 只会一个一个表读取表结构信息。
所以对于有很多表的数据库,这个初始化过程可能需要一定的时间。
但是数据消费阶段(读取变更日志)Flink CDC 是采用多线程并行的,可以并发消费多个表的变更日志。
希望以上信息能为你

2023-07-30 10:31:37

赞同展开评论

问答分类：

关系型数据库 MySQL 流计算实时计算 Flink版云数据库 RDS MySQL 版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版mysql 实时计算 Flink版cdc mysql cdc云数据库 RDS MySQL 版 flink云数据库 RDS MySQL 版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

阿里云为解决MySQL在云上CPU资源利用率低和单线程查询处理的问题，推出了什么功能？

270

1

0

Flink CDC中报线程池问题我把source表的调到100 也是数据库限制了吗？

171

1

0

RDS for MySQL如何查看消耗内存高的事件和线程

232

1

0

PyFlink 在 Flink 1.15 中的“线程”模式带来了哪些性能提升？

323

1

0

PolarDB的并行查询功能是如何解决MySQL查询执行单线程问题的？

193

1

0

通过api接口拉取rds备份开多线程ip会有影响吗

189

1

0

Flink Reporter是有专门的线程吗

174

1

0

RDS遇到慢SQL在哪个模块可以强制关闭线程

148

0

0

Flink CDC 里现在增量阶段也只是单线程嘛？

247

0

0

在使用 Flink CDC 且通过这个开启可以吗？

205

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

字符集没统一，DBA的头发就是这么掉光的

Kolla-Ansible 部署 OpenStack + Ceph 完整方案

电商平台数据库TDE透明加密实战：防数据泄露+合规一次过

当 80% 的数据库由 AI 自动创建，我们需要一个什么样的 PostgreSQL？

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

Flink 与 Hologres 搭建实时数仓

通过 RocketMQ 实现分布式事务

云上高可用架构

快速集成分布式任务调度

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink CDC里这个问题怎么解决？

flinkcdc在IDEA运行正常，打包就报错

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flink 手动触发savepoint会出现timeout，有办法调整超市时间之类吗？

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

在Flink想实时汇总数据，类似数据大屏功能，应该用阿里云Flink的什么功能服务？

展开全部

使用 Kafka 和 Flink 构建实时数据处理系统

【对话科技】Flink技术介绍和新功能展望

【阿里内部应用】利用blink CEP实现流计算中的超时统计问题

Apache Flink 零基础入门（三）：DataStream API 编程

Apache Flink 漫谈系列(12) - Time Interval(Time-windowed) JOIN

Apache Flink 进阶入门（二）：Time 深度解析

Apache Flink 进阶（八）：详解 Metrics 原理与实战

Apache Flink 零基础入门（一）：基础概念解析

阿里重磅开源全球首个批流一体机器学习平台Alink，Blink功能已全部贡献至Flink

在 Cloudera Data Flow 上运行你的第一个 Flink 例子

展开全部

还有其他疑问?