Flink CDC有两个问题1：3.0实时再跑的，当我没有到指定时间，这个资源一直暂用那么高吗？

Flink CDC有两个问题1：3.0实时再跑的，当我没有到指定时间，这个资源一直暂用那么高吗？还是说空闲是资源会释放？问题2：这个是不是增量读取快照？还是每次调度都是全量快照？mode=snaphot+调度工具有案例吗？

展开

收起

真的很搞笑 2023-12-04 08:09:27 192 版权

3 条回答

写回答

取消提交回答

Star时光
1. 对于问题1：在Flink CDC 3.0版本中，当任务没有到达指定时间时并且没有新的数据到达，资源不会一直占用高。Flink 使用了动态资源调度机制，即当任务没有可处理的数据时，它会将资源释放给其他需要的任务，以提高资源的利用率。因此，在空闲状态下，Flink CDC任务会适时地释放资源。
2. 对于问题2：Flink CDC是增量读取数据，而不是每次调度都进行全量快照。CDC任务通过实时读取数据库的binlog或WAL日志来获取增量更新事件，并将其转换为流式数据进行处理。这意味着CDC任务只会读取到最新的增量数据，而不会处理全量数据。
关于mode=snapshot和调度工具的案例，可以使用Flink的Savepoint功能来创建快照，并使用Flink的调度工具（如YARN、Kubernetes等）来管理和调度CDC任务。您可以按照以下步骤操作：
1. 在运行中的CDC任务中使用Flink的Savepoint功能创建一个快照（Snapshot）。保存快照后，您可以随时恢复到该快照的状态。
2. 使用Flink调度工具（如YARN或Kubernetes）来管理和调度CDC任务。您可以根据需求配置调度工具，例如设置定时触发或基于条件触发的策略来启动、停止或调度CDC任务。
2023-12-04 20:46:54

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Flink CDC是Flink社区开发的Source Connector，可以从MySQL等数据库读取快照数据Flink CDC是Flink社区开发的Source Connector，可以从MySQL等数据库读取快照数据和增量数据。在全量阶段，Flink CDC会获取当前时间点之前的所有数据，并将其保存为一个快照。而在增量阶段，Flink CDC会持续监控数据库的变化，并实时获取增量数据。

对于你的第一个问题，当Flink任务正在运行时，它会一直占用相应的资源，包括CPU、内存等。如果你没有指定任务的运行时间，那么任务会一直运行，对应的资源也会一直被占用。但是，如果你的任务在空闲状态，资源是否会释放取决于你的具体设置和集群的管理策略。

对于你的第二个问题，Flink CDC支持增量快照读取模式。这种模式下，Flink CDC只需要获取从上次快照之后发生变化的数据，而不需要重新读取整个表的数据。这大大提高了读取效率，特别是在处理大量数据时。在Flink CDC 2.0中，实现了全程无锁读取，全量阶段并行度更高。同时，Flink CDC的增量快照读取算法早期只在MySQL CDC上支持，为了其他CDC Connector也能够轻松地接入，获得无锁读取，并发读取，断点续传等高级能力。在2.2版本中，推出了增量快照框架。

2023-12-04 14:00:29

赞同展开评论
sunrr

Flink CDC在处理大规模数据时，确实会占用较高的资源，这是由于在开始进行全量表读取时，需要处理大量的数据。但随着初始同步的完成并转为读取日志操作，资源需求量会逐渐减少。如果遇到资源占用过高的问题，你可以尝试以下两种优化方法：首先，可以增加JVM堆内存的大小，以适应更大规模的数据同步。其次，可以调整Flink CDC连接器的配置，例如通过设定初始谓词来限制同步的数据量，或者调整checkpoint策略来降低checkpoint的频率，从而减少内存使用。此外，Flink CDC的增量快照读取算法解决了全增量一体化同步里的一些痛点，它通过无锁读取、并发读取等方式，提高了读取效率。至于mode=snaphot+调度工具的使用案例，该参数主要用于指定Flink CDC任务的启动模式以及调度工具类型，具体的使用方法和案例可以参考Flink CDC的官方文档或相关教程。

2023-12-04 11:42:51

赞同展开评论

Flink CDC有两个问题1：3.0实时再跑的，当我没有到指定时间，这个资源一直暂用那么高吗？

实时计算 Flink

相关文章

热门讨论

热门文章