开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC有两个问题1:3.0实时再跑的,当我没有到指定时间,这个资源一直暂用那么高吗?

Flink CDC有两个问题1:3.0实时再跑的,当我没有到指定时间,这个资源一直暂用那么高吗?还是说 空闲是资源会释放?问题2:这个是不是增量读取快照?还是每次调度都是全量快照?mode=snaphot+调度工具有案例吗?

展开
收起
真的很搞笑 2023-12-04 08:09:27 52 0
3 条回答
写回答
取消 提交回答
    1. 对于问题1:在Flink CDC 3.0版本中,当任务没有到达指定时间时并且没有新的数据到达,资源不会一直占用高。Flink 使用了动态资源调度机制,即当任务没有可处理的数据时,它会将资源释放给其他需要的任务,以提高资源的利用率。因此,在空闲状态下,Flink CDC任务会适时地释放资源。

    2. 对于问题2:Flink CDC是增量读取数据,而不是每次调度都进行全量快照。CDC任务通过实时读取数据库的binlog或WAL日志来获取增量更新事件,并将其转换为流式数据进行处理。这意味着CDC任务只会读取到最新的增量数据,而不会处理全量数据。

    关于mode=snapshot和调度工具的案例,可以使用Flink的Savepoint功能来创建快照,并使用Flink的调度工具(如YARN、Kubernetes等)来管理和调度CDC任务。您可以按照以下步骤操作:

    1. 在运行中的CDC任务中使用Flink的Savepoint功能创建一个快照(Snapshot)。保存快照后,您可以随时恢复到该快照的状态。

    2. 使用Flink调度工具(如YARN或Kubernetes)来管理和调度CDC任务。您可以根据需求配置调度工具,例如设置定时触发或基于条件触发的策略来启动、停止或调度CDC任务。

    2023-12-04 20:46:54
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Flink CDC是Flink社区开发的Source Connector,可以从MySQL等数据库读取快照数据Flink CDC是Flink社区开发的Source Connector,可以从MySQL等数据库读取快照数据和增量数据。在全量阶段,Flink CDC会获取当前时间点之前的所有数据,并将其保存为一个快照。而在增量阶段,Flink CDC会持续监控数据库的变化,并实时获取增量数据。

    对于你的第一个问题,当Flink任务正在运行时,它会一直占用相应的资源,包括CPU、内存等。如果你没有指定任务的运行时间,那么任务会一直运行,对应的资源也会一直被占用。但是,如果你的任务在空闲状态,资源是否会释放取决于你的具体设置和集群的管理策略。

    对于你的第二个问题,Flink CDC支持增量快照读取模式。这种模式下,Flink CDC只需要获取从上次快照之后发生变化的数据,而不需要重新读取整个表的数据。这大大提高了读取效率,特别是在处理大量数据时。在Flink CDC 2.0中,实现了全程无锁读取,全量阶段并行度更高。同时,Flink CDC的增量快照读取算法早期只在MySQL CDC上支持,为了其他CDC Connector也能够轻松地接入,获得无锁读取,并发读取,断点续传等高级能力。在2.2版本中,推出了增量快照框架。

    2023-12-04 14:00:29
    赞同 展开评论 打赏
  • Flink CDC在处理大规模数据时,确实会占用较高的资源,这是由于在开始进行全量表读取时,需要处理大量的数据。但随着初始同步的完成并转为读取日志操作,资源需求量会逐渐减少。如果遇到资源占用过高的问题,你可以尝试以下两种优化方法:首先,可以增加JVM堆内存的大小,以适应更大规模的数据同步。其次,可以调整Flink CDC连接器的配置,例如通过设定初始谓词来限制同步的数据量,或者调整checkpoint策略来降低checkpoint的频率,从而减少内存使用。此外,Flink CDC的增量快照读取算法解决了全增量一体化同步里的一些痛点,它通过无锁读取、并发读取等方式,提高了读取效率。至于mode=snaphot+调度工具的使用案例,该参数主要用于指定Flink CDC任务的启动模式以及调度工具类型,具体的使用方法和案例可以参考Flink CDC的官方文档或相关教程。

    2023-12-04 11:42:51
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载