开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

Flink CDC整库同步,故障重启,或者业务上如果单表刷数据这块都得自己想办法搞了吧?

Flink CDC整库同步,开源版本只能走stream api,并且没有sink端的实现,一致性,故障重启,或者业务上如果单表刷数据这块都得自己想办法搞了吧?

展开
收起
cuicuicuic 2023-11-06 13:51:03 31 0
3 条回答
写回答
取消 提交回答
  • dinky的sql就可以的,paimon和doris的连接器都自己写了整库同步,此回答整理自钉群“Flink CDC 社区”

    2023-11-08 07:39:38
    赞同 展开评论 打赏
  • 对于 Flink CDC 整库同步,开源版本提供了 Source 端的支持,但 Sink 端并没有实现,需要用户自己编写代码实现。此外,一致性、故障恢复等功能也需要自己实现。如果需要实现整库同步,则需要借助于一些开源框架,如 Debezium 或 CDC Connector。

    2023-11-06 21:48:05
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Apache Flink 的开源版本确实只提供了流处理 API,并且 sink 端的实现需要用户自定义。但是,这并不意味着无法进行整库同步或处理故障重启等情况。

    对于整库同步,你可以通过使用 Flink SQL 来实现。虽然 Flink SQL 在社区版中并未提供所有的功能,但它仍然可以用来处理复杂的 ETL 任务和数据流处理。

    至于故障重启和一致性问题,Flink 提供了 checkpoint 和 savepoint 功能来保证 Exactly Once 的语义。在出现故障时,可以通过恢复最近的 checkpoint 或 savepoint 来重新启动作业,确保不会丢失任何数据。

    至于单表刷数据的问题,你可能需要根据具体的应用场景来自定义解决方案。例如,你可以定期执行全量同步,然后在全量同步的基础上进行增量同步。这样既可以保持数据的一致性,又可以减少网络传输的数据量。

    2023-11-06 14:33:15
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载