开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

常见的 CDC 方案实现之binlog 实时同步是什么?

常见的 CDC 方案实现之binlog 实时同步是什么?

展开
收起
Lee_tianbai 2021-01-07 16:25:07 2184 0
1 条回答
写回答
取消 提交回答
  • binlog 日志可以通过一些工具实时同步到 kafka 等消息中间件中,然后通过 Spark/Flink 等流引擎实时的回放 binlog 到目标存储(如 Kudu/HBase 等)。

    image.png

    缺点:

     Kudu/HBase 运维成本高

     Kudu 在数据量大的有稳定性问题, HBase 不支持高吞吐的分析

     Spark Streaming 实现回放 binlog 逻辑复杂,使用 java/scala 代码具有一定门槛

    2021-01-07 16:25:39
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
PolarDB-X 2.0 全局 Binlog 与备份恢复能 立即下载
MongoShake 立即下载
One Box:解读事务与分析一体化数据库HybridDB 立即下载