文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC为什么在taskmanage和jobmanage之间会有这么大的数据包？

Flink CDC这个昨天查了一下akka是taskmanage和jobmanage之间作为通信的组件，调大了 akka.framesize 的大小，已经加到了1.2G，但是今天又有超过1.2G的导致任务失败，现在只是采集一个单表数据，为什么在taskmanage和jobmanage之间会有这么大的数据包？

展开

收起

真的很搞笑 2023-09-28 09:27:41 176 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

清风拂袖

Flink CDC 在 taskmanager 和 jobmanager 之间会有这么大的数据包，是因为 Flink CDC 使用 Checkpoint 机制来保证数据的一致性。当 taskmanager 执行任务时，会定期生成 Checkpoint，并将 Checkpoint 发送给 jobmanager。如果 taskmanager 发生故障，jobmanager 可以通过 Checkpoint 恢复 taskmanager 的运行状态。

Checkpoint 是异步通信的，所以当 taskmanager 发送 Checkpoint 时，需要等待 jobmanager 确认 Checkpoint 成功接收。如果 Checkpoint 大小很大，就会导致 taskmanager 和 jobmanager 之间有这么大的数据包。

为了减少 Checkpoint 的数据包大小，可以通过以下几种方法：

减少 Checkpoint 的间隔时间。这样可以让 Checkpoint 更频繁地生成，从而减少每个 Checkpoint 的数据量。
使用快照压缩。Flink CDC 支持使用快照压缩来减少 Checkpoint 的数据量。
使用 RocksDB。如果 taskmanager 和 jobmanager 都使用 RocksDB，可以通过 RocksDB 的异步备份功能来减少 Checkpoint 的数据量。
希望这些建议对您有所帮助。

2023-10-18 10:18:16

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版taskmanage 实时计算 Flink版jobmanage 实时计算 Flink版cdc taskmanage

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC taskManage日志一直打印这个，但是没有往下游写数据是怎么回事？

195

1

0

有大佬知道Flink CDC这是怎么回事吗，ck目录创建不了了？本地的，我把所有taskManage

233

3

0

Flink中k8s standalone 部署时taskmanage 无法解析pod主机名是啥问题？

282

1

0

想请教下各位大佬，一个flink任务（1taskmanage，1个jobmanage），这样的配置里

175

0

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2189

1

0

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

1359

0

0

取消 flink 作业后，发现 flink 所在的 taskmanage 挂掉了。上面的 flin

2769

5

0

flink cdc(mysql) -> elasticsearch7, 任务每次持续跑了一段时间之后

1376

2

0

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

2027

18

0

各位大佬，请教个问题，使用flink cdc读取数据时，如果配置一个表，数据过滤是发生在server

2041

3

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

9B 上端侧：多模态实时对话，难点其实在“流”

文本字符数统计在线工具核心JS实现

什么是批处理？一文搞清批处理和流处理的区别

个人所得税计算器在线工具分享

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

Flink有2023 Flink Forward Asia 资料下载地址吗?

问一下设置timestamp读 kafka 一直报错无效偏移量为啥 ?

pyflink在读取hdfs文件的时候如何使用通配符？

Flink1.10 python API 对流式处理的支持度如何，能直接用于生产吗？

有用flink cdc同步mysql到hive这样搞过的源码吗?

大佬们，请教下，Flink CDC2.4.0版本的mysql cdc，怎么设置时区"？

展开全部

数据仓库介绍与实时数仓案例

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

深入了解 Flink 网络栈（二）：监控、指标和处理背压

日均百亿级日志处理：微博基于 Flink 的实时计算平台建设

基于 Flink 构建 CEP 引擎的挑战和实践

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

基于实时计算（Flink）与高斯模型构建实时异常检测系统

Apache Flink 零基础入门教程（六）：状态管理及容错机制

展开全部

还有其他疑问?