开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flinkcdc 同步数据到hbase 单表1000多万的数据 配置有要注意的么?

flinkcdc 同步数据到hbase 单表1000多万的数据 配置有要注意的么?

展开
收起
十一0204 2023-04-10 20:45:13 270 0
2 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    "你这个最主要是看上游的数据源可以承载多大的吞吐。 checkpoint的超时时间可以加大一旦 在你的flink上添加这几个参数 execution.checkpointing.interval: 10min execution.checkpointing.tolerable-failed-checkpoints: 10 restart-strategy: fixed-delay restart-strategy.fixed-delay.attempts: 2147483647 tm存在超时失联情况,可能存在的原因内存不足或者tm的通信时间较短,按照这个问题导致的原因去调整参数,比如tm内存大小,超时时间等。 此答案整理自钉群“Flink CDC 社区”"

    2023-04-12 08:48:51
    赞同 展开评论 打赏
  • 坚持这件事孤独又漫长。

    以下是一些需要注意的配置:

    1. HBase连接的配置:确保Flink程序可以连接到HBase集群,并且具有对HBase表执行读/写操作的权限。

    2. HBase表的设计:在设计HBase表时,建议使用与业务逻辑相关的列族和列名。另外,还要考虑存储的数据类型和查询方式。

    3. Flink程序的配置:由于单表数据量较大,需要适当增加Flink程序的并行度和内存分配等配置,以提高处理性能。

    4. CDC数据采集的配置:要确保CDC数据源的配置能够满足你的数据采集需求。

    5. 数据同步的代码实现:最好使用异步方式将数据写入HBase,以提高处理性能和稳定性。

    2023-04-11 09:02:14
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
大数据时代的存储 ——HBase的实践与探索 立即下载
Hbase在滴滴出行的应用场景和最佳实践 立即下载
阿里云HBase主备双活 立即下载