备案控制台登录注册

开发者社区大数据与机器学习实时计算 Flink 正文

有小伙伴用Flink CDC复制存量数据有20亿数据量大小的表吗？

有小伙伴用Flink CDC复制存量数据有20亿数据量大小的表吗？可能有100G那么大，每次读取都会把内存撑爆，有什么通用的解决反感吗？

收起

真的很搞笑 2023-10-23 14:52:33 81 发布于黑龙江版权

举报

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

加大内存，你可以算一下你的数据大概1万行有多少mb，然后来调整你的chunk大小，默认8096，具体的值还要乘一个因子，比如我的tm heap是8g，solt是4，那每个solt就是2g空间，在ck 的interval时间内这个slot能进来n个chunk，那n×每个chunk大大小不能超过2g。主要就是调chunk大小和ck interval，此回答整理自钉群“Flink CDC 社区”

2023-10-24 08:30:34 举报

赞同评论

评论
全部评论 (0)
登录后可评论
sunrr
对于大数据量的表，Flink CDC确实可能会遇到内存问题。这是因为Flink CDC需要将整个表的数据加载到内存中以进行数据变更的检测和同步。

以下是一些可能的解决方案：
1. 分区表：你可以考虑将大表分区成多个小表。这样，Flink CDC就可以为每个分区创建一个单独的任务，从而减少内存的使用。
2. 增量复制：你可以尝试使用Flink CDC的增量复制模式。在这种模式下，Flink CDC只复制自上次同步以来发生的数据变化。这可以减少内存的使用，但可能会增加同步的时间。
3. 调整任务内存：你可以尝试调整Flink CDC任务的内存分配。你可以增加任务的内存限制，或者使用更高效的内存分配策略。
4. 使用外部表：你可以尝试使用Flink的外部表。外部表允许你直接从磁盘中读取数据，而不需要将数据加载到内存中。
5. 使用批处理：对于大数据量的表，批处理可能是一个更好的选择。批处理可以在数据上执行复杂的转换，而不需要将数据加载到内存中。
2023-10-23 16:45:39 举报

赞同评论

评论
全部评论 (0)
登录后可评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版cdc数据实时计算 Flink版数据实时计算 Flink版cdc数据量实时计算 Flink版数据量

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink有没有小伙伴试过直接操作mapstate的迭代器来删除其中的key？

62

0

0

Flink的cdc全量同步的话对于cdc来说会一直保留着表的存量数据吗？

266

4

0

关于阿里云flink普罗米修斯费用降低问题是否今个月开始升级？存量用户也是本月吗？

77

1

0

Flink有办法控制CDC读取完存量数据后kafkaSource开始消费吗

122

1

0

Flink有实践过Autoscaler 的小伙伴吗？

95

0

0

在Flink CDC中,SQL server 3.1.1，无法从存量切到CDC增量，有啥解决方案吗?

57

0

0

Flink CDC有对debezium 熟悉的小伙伴吗？

45

1

0

oracle存量同步，归档日志也没了，Flink CDC用不了吧？这个有推荐的工具吗？

97

2

0

Flink线上存量的作业怎么拉取呢？

46

1

0

Flink CDC里使用initial模式, 转增量之后，存量数据会丢吗？

62

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

官宣 | Fluss 0.6 发布公告

Dataphin功能Tips系列（42）-实时研发-基于Flink on k8s

阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

Dataphin功能Tips系列（44）-实时任务调优

Dataphin功能Tips系列（46）-实时研发任务在session调试和运行时资源分配上的区别

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC有遇到过这个问题吗？

flink cdc 有没得官方介绍文档？

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

请问下大家有没有遇到过这个错:Caused by: java.lang.ClassNotFoundE

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Hive 上为啥查不到数据呢？Hdfs 上有对应的文件，还有大佬知道什么原因的？

Flink-CDC 文档网站地址是什么？

关于Flink CDC，跑起来有异常，为什么？

flink大作业启动频繁报akka.pattern.AskTimeoutException 大家有

展开全部

数据仓库介绍与实时数仓案例

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

分布式Snapshot和Flink Checkpointing简介

实时计算 Flink SQL 核心功能解密

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

展开全部

还有其他疑问?

你好，我是AI助理

可以解答问题、推荐解决方案等