开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC从mysql同步数据到doris,这是咋回事?

Flink CDC从mysql同步数据到doris,同步的历史数据中时间字段类型都是null,但是增量部分的时间类型的字段都会正常显示,这是咋回事?

展开
收起
真的很搞笑 2023-12-31 08:47:24 82 0
1 条回答
写回答
取消 提交回答
  • Flink CDC从MySQL同步数据到Doris时,历史数据时间字段显示为null,而增量数据部分的时间类型字段正常显示,这种情况可能是由于以下原因:

    1. 初始快照的处理方式

      • 在Flink CDC任务启动时,通常会对源数据库进行一次全量快照以获取历史数据。如果在快照期间表中的时间字段为空(例如因为当时设计或导入问题),那么这些空值会被直接同步至Doris中。
    2. CDC变更日志的差异

      • CDC捕获的是数据库的变更事件,增量数据来自binlog中的INSERT、UPDATE和DELETE事件。对于历史数据,在快照后发生的更新操作中,可能已经对那些之前为空的时间字段进行了赋值,所以增量部分的数据会包含有效的时间值。
    3. 源库数据清理或迁移

      • 如果历史数据在某个时间点之后被批量更新或补录了时间信息,那么在该时间点后的CDC变更日志中就会反映出这个变化。
    4. Flink CDC配置问题

      • 确认Flink CDC任务在解析和转换MySQL binlog事件时,是否正确处理了时间类型的字段。如果存在特殊的数据格式或转换逻辑,可能会导致历史数据在同步过程中丢失或未正确映射。
    5. 目标端(Doris)字段默认值设置

      • 检查Doris表结构中对应时间字段是否有默认值设定,如果没有设定且源数据中为null,则在写入时自然就为null。

    要解决这个问题,需要检查MySQL的历史数据以及Flink CDC的同步逻辑,确保历史数据中的时间字段在全量同步阶段得到了正确的处理。同时,也可以查看Flink CDC的具体配置和日志,以确认同步过程中是否存在异常行为。

    2023-12-31 13:20:15
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载

    相关镜像