flinkcdc 同步数据到hbase 单表1000多万的数据 配置有要注意的么?

flinkcdc 同步数据到hbase 单表1000多万的数据 配置有要注意的么?

展开
收起
十一0204 2023-04-10 20:45:13 310 分享 版权
2 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    "你这个最主要是看上游的数据源可以承载多大的吞吐。 checkpoint的超时时间可以加大一旦 在你的flink上添加这几个参数 execution.checkpointing.interval: 10min execution.checkpointing.tolerable-failed-checkpoints: 10 restart-strategy: fixed-delay restart-strategy.fixed-delay.attempts: 2147483647 tm存在超时失联情况,可能存在的原因内存不足或者tm的通信时间较短,按照这个问题导致的原因去调整参数,比如tm内存大小,超时时间等。 此答案整理自钉群“Flink CDC 社区”"

    2023-04-12 08:48:51
    赞同 展开评论
  • 坚持这件事孤独又漫长。

    以下是一些需要注意的配置:

    1. HBase连接的配置:确保Flink程序可以连接到HBase集群,并且具有对HBase表执行读/写操作的权限。

    2. HBase表的设计:在设计HBase表时,建议使用与业务逻辑相关的列族和列名。另外,还要考虑存储的数据类型和查询方式。

    3. Flink程序的配置:由于单表数据量较大,需要适当增加Flink程序的并行度和内存分配等配置,以提高处理性能。

    4. CDC数据采集的配置:要确保CDC数据源的配置能够满足你的数据采集需求。

    5. 数据同步的代码实现:最好使用异步方式将数据写入HBase,以提高处理性能和稳定性。

    2023-04-11 09:02:14
    赞同 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

收录在圈子:
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
还有其他疑问?
咨询AI助理