flinkcdc 同步数据到hbase 单表1000多万的数据 配置有要注意的么?
"你这个最主要是看上游的数据源可以承载多大的吞吐。 checkpoint的超时时间可以加大一旦 在你的flink上添加这几个参数 execution.checkpointing.interval: 10min execution.checkpointing.tolerable-failed-checkpoints: 10 restart-strategy: fixed-delay restart-strategy.fixed-delay.attempts: 2147483647 tm存在超时失联情况,可能存在的原因内存不足或者tm的通信时间较短,按照这个问题导致的原因去调整参数,比如tm内存大小,超时时间等。 此答案整理自钉群“Flink CDC 社区”"
HBase连接的配置:确保Flink程序可以连接到HBase集群,并且具有对HBase表执行读/写操作的权限。
HBase表的设计:在设计HBase表时,建议使用与业务逻辑相关的列族和列名。另外,还要考虑存储的数据类型和查询方式。
Flink程序的配置:由于单表数据量较大,需要适当增加Flink程序的并行度和内存分配等配置,以提高处理性能。
CDC数据采集的配置:要确保CDC数据源的配置能够满足你的数据采集需求。
数据同步的代码实现:最好使用异步方式将数据写入HBase,以提高处理性能和稳定性。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。