开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC先前的版本,有这样的问题导致数据丢失场景?

Flink CDC先前的版本,有这样的问题导致数据丢失场景?image.png

展开
收起
真的很搞笑 2023-11-07 08:09:38 102 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在早期版本的 Flink CDC 中,确实存在可能导致数据丢失的现象。以下是常见的可能导致数据丢失的情况:

    1. 数据库日志缓冲区不足:如果日志缓冲区较小,可能导致未能正确记录所有变更和冲突等情况出现。
    2. 网络问题:如果出现中断或者其他连接问题,可能导致 CDC 损失部分数据记录。
    3. CDC 过滤条件:如果您设定的过滤条件过于严格,可能导致部分数据被忽略。
    4. Flink CDC 插件 bug:可能存在一些早期版本的 bug 导致数据丢失。

    为了避免这种情况,您可以采取以下方法:

    1. 优化数据库日志缓冲区大小,确保满足需求。
    2. 关注网络状态,并采取有效措施避免网络中断和失败。
    3. 对 Flink CDC 插件进行升级,修复已知 bug。
    4. 检查过滤条件是否合适,尽可能确保所有数据被正确抓取。
    2023-11-07 14:20:30
    赞同 展开评论 打赏
  • Flink CDC是一个基于Change Data Capture(CDC)技术的数据同步工具,可以将关系Flink CDC是一个基于Change Data Capture(CDC)技术的数据同步工具,可以将关系型数据库中的数据实时同步到Flink流处理中进行实时计算和分析。在实现CDC,即捕获数据库的变更数据时,Flink CDC是Flink社区开发的flink-cdc-connectors组件,这是一个可以直接从MySQL、PostgreSQL等数据库直接读取全量数据和增量变更数据的source组件。

    然而,在使用Flink CDC时,确实存在数据丢失的场景。这可能是由于配置错误、数据源问题、数据目标问题或网络连接问题导致的。例如,如果是基于查询的CDC,有可能导致两次查询的中间一部分数据丢失,因为每次DML操作均有记录,无需像查询CDC这样发起全表扫描进行过滤。

    2023-11-07 10:04:12
    赞同 1 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载