开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flinkcdc读取binlog后,是直接写入hive,还是先到kafka,写入hive呢?

展开
收起
真的很搞笑 2023-10-02 14:17:26 123 0
2 条回答
写回答
取消 提交回答
  • FlinkCDC读取binlog后,通常会先写入Kafka,然后再写入Hive。这是因为Kafka是一个高吞吐量的分布式消息队列,可以提供高效的数据传输和处理。通过将数据先写入Kafka,可以降低FlinkCDC的压力,提高数据处理的性能和稳定性。此外,Kafka还提供了强大的数据流处理能力,可以方便地进行数据清洗、转换和聚合操作,从而进一步提高数据的质量和一致性。

    2023-10-12 17:01:57
    赞同 展开评论 打赏
  • 现在应该定义一下catalog, 直接写hive, 很久之前, 试过写hdfs目录, 反正hive元数据就是映射的hdfs路径, 定时flush, 然后hive表就能查到数据了,此回答整理自钉群“Flink CDC 社区”

    2023-10-04 07:39:54
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

热门讨论

热门文章

相关电子书

更多
消息队列 Kafka 版差异化特性 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载
2019大数据技术公开课第五季—kafka 数据如何同步到 MaxCompute 立即下载