开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

可否给个Flink CDC选项,遇到这种dummy时间转成NULL?存量query和增量消费

Flink CDC作业消费数据源来自mysql业务表,后者使用了0000-00-00 00:00:00这个dummy date来存时间,直接用Flink CDC消费的话会被解析成1970-01-01 00:00:00 (mysql中是datetime类型)或者1970-01-01 08:00:00 (mysql中是timestamp类型)

问题1:可否给个Flink CDC选项,遇到这种dummy时间转成NULL?存量query和增量消费binlog处理这种dummy时间结果一致么? 问题2:如果是mysql -> mysql同步场景,使用Flink CDC在timestamp类型下不能够同步0000-00-00 00:00:00这个dummy date,原因是Flink CDC转成了1970-01-01 08:00:00 CST,对应到UTC时区是1970-01-01 00:00:00,而mysql官方文档[1]定义timestamp类型取值范围是'1970-01-01 00:00:01' UTC to '2038-01-19 03:14:07' UTC,因此会认为1970-01-01 08:00:00 CST是非法数据

展开
收起
真的很搞笑 2023-06-29 08:16:45 68 0
1 条回答
写回答
取消 提交回答
  • 对于您的问题1,Flink CDC 目前没有直接的选项可以将 dummy 时间转换为 NULL。然而,您可以使用 Flink 的转换函数和自定义逻辑来处理这种情况。在 Flink CDC 中,您可以编写自定义的数据转换函数,例如 MapFunction 或 ProcessFunction,来处理接收到的数据流。在这个函数中,您可以检查并转换 dummy 时间为 NULL,然后将处理后的数据发送给目标。

    在存量查询和增量消费 binlog 的场景下,处理 dummy 时间的逻辑应保持一致。您可以使用相同的自定义逻辑处理 dummy 时间,以确保结果一致。

    对于问题2,Flink CDC 在处理 MySQL 的 timestamp 类型时,默认会将 dummy 时间 '0000-00-00 00:00:00' 转换为对应的时间戳。这种转换可能导致与 MySQL 官方文档所定义的取值范围不一致。为了解决这个问题,您可以考虑使用 Flink 的自定义逻辑来处理 dummy 时间。在自定义逻辑中,您可以将 dummy 时间 '0000-00-00 00:00:00' 转换为 NULL 或其他有效的时间表示,以便与目标 MySQL 数据库兼容。

    需要注意的是,根据 MySQL 的规范,'0000-00-00 00:00:00' 是一个非法的日期时间值,因此在同步数据时,确保在目标数据库中使用有效的日期时间类型来存储数据,以避免潜在的问题。

    总结来说,Flink CDC 目前没有直接的选项来处理 dummy 时间,但您可以使用 Flink 的自定义逻辑来进行转换和处理,以满足您的需求并确保与目标数据库的兼容性。

    2023-10-17 11:48:32
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    Flink CDC Meetup PPT - 覃立辉 立即下载
    Flink CDC Meetup PPT - 孙家宝 立即下载
    Flink CDC Meetup PPT - 徐榜江 立即下载