开发者社区> 问答> 正文

如何tidb Binlog 整库同步到 hive?

大家好 . 我现在有一个场景需要调研。 背景:对整库 Tidb binlog 做实时落 Hive,好几个库的binlog发送到一个Topic或者几个Topic里面,一个Topic里面有复数个表的binlog。

  1. 好像 Flink SQL 里面只能一个数据源 kafka 到一张Hive表,一个Topic是否可以根据解析的表不同插入到不同的Hive表吗 ? 我看了一些邮件好像说不可以的,在问一下。
  2. 或者有什么好的解决方式吗?因为数据量都不是很大,表比较多,每个表都要维护一个任务的话,代价比较大。

感谢!*来自志愿者整理的flink邮件归档

展开
收起
游客sadna6pkvqnz6 2021-12-07 16:48:02 1008 0
1 条回答
写回答
取消 提交回答
  • 在一个SQL作业中是不行的,因为SQL是强依赖Schema的,schema需要事先声明。 除了多个sql作业的方式,如果需要在一个SQL作业中可以试试在一个作业里把所有表的binlog 格式统一用一个字段(如string) 接入,然后写针对每个表的schema写一个udtf解析对应的数据,最后多路输出到hive的不同表。*来自志愿者整理的flink

    2021-12-07 20:19:51
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载