flatMessage模式下,目前字段都是以String存在于json中;有没有可能提供大致准确的类型。
例子:
表结构:
id: int name: varchar(32) height: double 目标flatMessage:
{ "data":[ { "id":1, "name":"a", "height ": 180.2 } ] ,... }
大致准确指的是:
转换一些基础类型。如Integer, Long, Double, Boolean即可 日期类型可以单独提供一个配置:把符合指定格式的date类型转为绝对天数(从1970-01-01开始),datetime类型转为绝对秒(从1970-01-01 00:00:00开始) 。这个日期转换可以作用于avro等格式在hive上。
为啥不把图中红框的String改为Object,改之后应该不会对现有的逻辑有影响吧?
我打算自己简单实现上述的类型转换和配置,用于mysql cdc -> json(转换类型后) -> avro -> hdfs
PS:虽然根据数据湖的schema on read模式,全写成String合理一些,但有些人就是觉得不好。。。
原提问者GitHub用户archongum
在 flatMessage 模式下,Canal 会将所有的字段都解析为字符串类型,并存储在 JSON 中。如果您需要将这些字符串类型转换为其他类型,可以考虑在消费端进行类型转换。具体而言,您可以在消费端根据字段名称和类型,将字符串类型转换为对应的数据类型。例如,对于整型字段,您可以使用 Integer.parseInt() 方法将字符串转换为整型;对于日期类型,您可以使用 SimpleDateFormat 将字符串按照指定格式转换为日期类型。
另外,您提到可以提供一个配置,将日期类型转换为绝对天数或绝对秒数。这个配置可以在消费端进行处理,例如在消费端使用 SimpleDateFormat 将日期类型转换为绝对天数或绝对秒数。这样可以避免在 Canal 中进行类型转换,提高 Canal 的性能和稳定性。
关于将字段类型从 String 改为 Object,这样做可能会带来一些问题。首先,这样会增加数据的存储和传输成本,因为 Object 类型比 String 类型更占用空间。其次,这样会增加数据的处理复杂度,因为需要在消费端对不同类型的 Object 进行类型判断和转换。因此,建议在 flatMessage 模式下,仍然将所有字段解析为字符串类型,并在消费端进行类型转换。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。