开发者社区> 问答> 正文

flatMessage模式下,字段类型的转换

flatMessage模式下,目前字段都是以String存在于json中;有没有可能提供大致准确的类型。

例子:

表结构:

id: int name: varchar(32) height: double 目标flatMessage:

{ "data":[ { "id":1, "name":"a", "height ": 180.2 } ] ,... }

大致准确指的是:

转换一些基础类型。如Integer, Long, Double, Boolean即可 日期类型可以单独提供一个配置:把符合指定格式的date类型转为绝对天数(从1970-01-01开始),datetime类型转为绝对秒(从1970-01-01 00:00:00开始) 。这个日期转换可以作用于avro等格式在hive上。

为啥不把图中红框的String改为Object,改之后应该不会对现有的逻辑有影响吧?

我打算自己简单实现上述的类型转换和配置,用于mysql cdc -> json(转换类型后) -> avro -> hdfs

PS:虽然根据数据湖的schema on read模式,全写成String合理一些,但有些人就是觉得不好。。。

提问229.jpeg

提问230.jpeg

原提问者GitHub用户archongum

展开
收起
古拉古拉 2023-05-08 12:37:03 135 0
2 条回答
写回答
取消 提交回答
  • flatMessage里有一个sqlType属性

    原回答者GitHub用户agapple

    2023-05-09 17:38:25
    赞同 展开评论 打赏
  • 值得去的地方都没有捷径

    在 flatMessage 模式下,Canal 会将所有的字段都解析为字符串类型,并存储在 JSON 中。如果您需要将这些字符串类型转换为其他类型,可以考虑在消费端进行类型转换。具体而言,您可以在消费端根据字段名称和类型,将字符串类型转换为对应的数据类型。例如,对于整型字段,您可以使用 Integer.parseInt() 方法将字符串转换为整型;对于日期类型,您可以使用 SimpleDateFormat 将字符串按照指定格式转换为日期类型。

    另外,您提到可以提供一个配置,将日期类型转换为绝对天数或绝对秒数。这个配置可以在消费端进行处理,例如在消费端使用 SimpleDateFormat 将日期类型转换为绝对天数或绝对秒数。这样可以避免在 Canal 中进行类型转换,提高 Canal 的性能和稳定性。

    关于将字段类型从 String 改为 Object,这样做可能会带来一些问题。首先,这样会增加数据的存储和传输成本,因为 Object 类型比 String 类型更占用空间。其次,这样会增加数据的处理复杂度,因为需要在消费端对不同类型的 Object 进行类型判断和转换。因此,建议在 flatMessage 模式下,仍然将所有字段解析为字符串类型,并在消费端进行类型转换。

    2023-05-08 12:49:33
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载