Flink CDC没有事务 那么批量的意义在哪里?

Flink CDC中JdbcExecutionOptions 设置了withBatchSize 我测试了 没有事务 那么批量的意义在哪里?

展开
收起
真的很搞笑 2023-09-20 13:04:42 99 分享 版权
1 条回答
写回答
取消 提交回答
  • Flink CDC 虽然没有事务,但是仍然可以通过批处理的方式来保证数据的一致性。

    Flink CDC 的批处理方式是将所有的增量数据聚合成一个批次,然后再一次性提交到目标表中。这样可以保证目标表中的数据是一致的,即使在数据采集过程中出现了数据丢失或重复的情况,也不会影响目标表的数据一致性。

    当然,批处理的方式也会带来一些性能上的损失。由于需要将所有的增量数据聚合成一个批次,因此批处理的处理速度会比流处理慢。另外,批处理也需要更多的内存空间,因为需要将所有的增量数据都存储在内存中。

    因此,Flink CDC 的批处理方式适用于数据量比较小、数据更新频率比较低的场景。如果数据量比较大、数据更新频率比较高,那么建议使用流处理的方式。

    2023-10-19 09:46:42
    赞同 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

还有其他疑问?
咨询AI助理