备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC1.13.6读取binlog是按照row读取还是按照事务的粒度读取的？

Flink CDC1.13.6读取binlog是按照row读取还是按照事务的粒度读取的？我理解是应该是这个大事务一次性处理了5千万数据，而flink的内存撑不下，导致读取事务数据一次性打爆了

展开

收起

真的很搞笑 2023-11-07 19:47:19 81 0

1 条回答

写回答

取消提交回答

1941623231718325
Flink CDC 是按照事务的粒度读取 binlog 的。在 Flink CDC 中，每个事务都会被转换成一系列的 Change Records，每个 Change Record 对应一行数据的变化。当一个事务提交时，所有的 Change Records 就会被一起发送出去，形成一个事务事件流。这样做的好处是可以保持数据的一致性和完整性。
然而，当事务涉及的数据量太大时，可能导致 Flink 内存不足，从而引发 OutOfMemoryError 错误。为了避免这种情况发生，可以考虑以下几个解决方案：
1. 增加 Flink 内存分配：增加 Flink 执行时分配给 TaskManager 的内存，以便能够容纳更大的事务数据量。
2. 设置 maxBatchSize 参数：可以通过调整 maxBatchSize 参数限制单次发送的数据量，避免过大的事务被打包成单个消息发送出去。
3. 使用流处理模式而不是批处理模式：在流处理模式下，Flink 可以持续地处理事务，而不是一次性接收全部数据。这样可以有效减轻内存压力，并且能够在遇到大事务时避免 OutOfMemoryError 错误。
4. 建立缓冲区来拆解大型事务：如果仍然无法避免大事务，那么可以建立一个缓冲区来拆解大型事务，并将其分割成若干个小事务发送出去。这种方法需要额外的编程和设计，但是在处理大数据量时具有更高的灵活性。
2023-11-09 15:45:30

赞同 2 展开评论打赏

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版binlog flink binlog 实时计算 Flink版粒度 binlog flink 实时计算 Flink版事务

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

Flink mysql binlog文件过期时间如何调整

33

1

0

flink CTAS 同步mysql数据，mysql需要开启binlog吗？

32

2

0

flink cdc里 Amazon RDS 的binlog出问题怎么解决？

25

0

0

Flink的holo表的binlog最长生命周期是多长啊？

26

1

0

在实时数仓Hologres中，使用flink去消费，不在需要每一个单独打开对应的binlog吧？

14

1

0

flink往odps事务表里写数据报这个错是为什么呢？

14

0

0

在 Flink 中，如何拆分作业以更好地利用细粒度资源管理？

22

1

0

在Flink CDC中需要查看任务对应binlog-position请问这个监控指标在哪查看？

25

1

0

在Flink CDC中重启任务时报了这个错，有一个表的binlog日志不存在，如何还能让任务正常跑？

61

1

0

PolarDB开启Binlog后大事务提交阻塞了其他事务的提交

18

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

Caused by: org.apache.kafka.common.errors.TimeoutE

flink怎么能够快速消费kafka数据，需要设置什么参数呢？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

flink 消费kafka,之前任务正常的，突然有个分区没法消费了，重启下任务久正常了？

Flink CDC 能适配达梦不？

Flink的tmp的这个目录产生临时文件很大，我想配置到外面，有配置项可以配置吗？

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Slot request bulk is not fulfillable，20以上job同时部署失败

在Flink CDC中人大金仓可以兼容PG的wal2json和Decoderbufs插件不？

请问如何用flink sql客户端用yarn application模式提交任务呢？

展开全部

分布式Snapshot和Flink Checkpointing简介

使用 Kafka 和 Flink 构建实时数据处理系统

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

Apache Flink 进阶（八）：详解 Metrics 原理与实战

必看！Apache Flink 运维&实战系列直播，揭秘生产环境技术难点

用Flink取代Spark Streaming！知乎实时数仓架构演进

百万TPS高吞吐、秒级低延迟，阿里搜索离线平台如何实现？

从开发到生产上线，如何确定集群规划大小?

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

实时计算 Flink版操作报错之遇到错误org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'jdbc'，该如何解决

展开全部

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

604

29

去学习

Apache Flink 入门到实战 - Flink开源社区出品

1603

16

去学习

实时计算 Flink 版产品入门与实操

4000

10

去学习

开源 Flink 极速上手教程

1849

7

去学习

大数据实时计算框架Spark快速入门

996

93

去学习

Apache Flink 入门

5089

9

去学习

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多