开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

这遍文章和我们遇到的问题使用了GTID解决的,但没详细说明想咨询flink cdc内部有没有好的方案

这遍文章和我们遇到的问题一致,最后使用了GTID解决的,但没有详细说明,所以想咨询flink cdc内部有没有好的方案?https://www.modb.pro/db/413195![b2d792bbe5f5877679ae6bffabfc6829.png](https://ucc.alicdn.com/pic/developer-ecology/qzuhd4w7jkwsy_c34a38bf6dc14c3d9635c91b0ae60c73.png)

展开
收起
小易01 2023-07-19 18:05:03 55 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在 Flink CDC 中,如果遇到了数据多取和发送顺序不对的问题,可以使用以下方法来解决:
    使用 MySQL Binlog API
    Flink CDC 内部使用 MySQL Binlog API 来读取 MySQL 数据库的 binlog,并将读取到的数据发送给 Flink 的下游任务进行处理。使用 Binlog API 可以保证数据的有序性,同时也可以避免数据多取的问题。Flink CDC 在读取 binlog 时,会自动记录当前读取的位置,以便下次读取时从上次停止的位置恢复。
    使用 Flink Watermark
    在 Flink 中,可以使用 Watermark 来处理乱序数据。Watermark 是一种特殊的时间戳,用于表示事件时间的进度。Flink CDC 在读取 MySQL 数据库的 binlog 时,可以将 binlog 中的事件时间作为 Watermark,然后使用 Flink 的时间窗口算子对数据进行分组和排序,以保证数据的有序性。
    使用 Flink Checkpoint
    Flink Checkpoint 是一种分布式快照机制,用于保证 Flink 任务的容错性和数据一致性。Flink CDC 可以通过启用 Checkpoint 机制来保证数据的完整性和有序性。当数据发送失败时,Flink CDC 可以使用 Checkpoint 机制来重新发送数据,以保证数据的不丢失和有序性。
    需要注意的是,以上方法需要根据实际情况进行选择和调整。例如,使用 Binlog API 可以保证数

    2023-07-29 19:39:44
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载