Flink CDC我在做一个测试练习，并行度2，实际上每个并行度只读取了一次？

Flink CDC我在做一个测试练习，并行度2，一个表里面有3000W的记录，我把cdc的chunk.size设置成5的时候，实际上每个并行度只读取了一次？
是因为这样这个chunks太大了吗？

展开

收起

真的很搞笑 2023-11-01 14:24:45 270 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Flink CDC 并行度指的是在读取源端数据时，可以同时读取多少份数据，以加快数据处理的速度。一般来说，设置更高的并行度可以帮助提高系统的吞吐量和性能，但也可能会增加资源消耗。
对于你的问题，当并行度为 2 时，理论上每个并行度应读取大约一半的数据。但是由于数据分布的原因，每个并行度实际读取的数据量可能会有所不同。如果你发现每个并行度只读取了一次数据，则可能是因为数据分布极度不平衡或者chunk.size设置过小导致的。 chunk.size是指每次从源端拉取的数据大小，如果设置过小，可能一次性只能拉取几条数据导致效果不佳。建议增大chunk.size以更好地利用并发能力，避免单线程拉取数据的情况。
此外，你可以尝试观察任务执行过程中各个 Source Subtask 的状态信息，以了解数据分发情况，以及是否存在其他可能影响性能的因素。

2023-11-02 15:30:56

赞同展开评论
sunrr

从你提供的截图来看，Flink CDC似乎在每个并行度下都只读取了一个分片（shard）。这可能是因为你的表的数据量太大，而你的chunk size设置得又太小，导致Flink CDC在处理过程中遇到了一些问题。

一般来说，如果你的表的数据量非常大，你应该适当增大你的chunk size。这样可以减少Flink CDC在处理过程中的I/O次数，提高处理效率。

然而，需要注意的是，增大chunk size可能会导致Flink CDC在处理过程中占用更多的内存和计算资源。因此，你需要根据你的实际情况，找到一个合适的chunk size。

2023-11-02 14:53:14

赞同展开评论
芯在这

加内存吧，此回答整理自钉群“Flink CDC 社区”

2023-11-01 21:33:08

赞同展开评论

Flink CDC我在做一个测试练习，并行度2，实际上每个并行度只读取了一次？

实时计算 Flink

相关文章

热门讨论

热门文章