文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC 为何使用增量快照做全量数据加载的时候，计算chunks的数量那么耗时？

Flink CDC 为何使用增量快照做全量数据加载的时候，计算chunks的数量那么耗时？不是直接select count / 设置的chunk size 就得出chunks 然后每个chunk执行数据加载就可以了吗？

我一个上亿的大表光计算chunk数量就花了两天？

展开

收起

真的很搞笑 2023-09-19 08:25:07 206 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

分片时要先获取表结构、分片键、分片键最大值、分片键最小值，估算表数量等信息，如果分片键是INT、BIGINT、DECIMAL类型的会先动态调整分片的大小，然后从最小值开始划分成[null, min + chunkSize]、按你说的那种方式划分。如果不分片键不是这种类型，每次要用SELECT FROM > ChunkStart Limt ChunkSize每次获取到分片的最大值
非数值类型的主键会扫描整表，均匀拆分数据。数值类型主键如果表里空洞太多，删除的数据太多，达到一个阈值，也会扫描整表均匀拆分数据
每次查询涉及到排序操作，没你想的这么简单，此回答整理自钉群“Flink CDC 社区”

2023-09-20 09:58:13

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版增量实时计算 Flink版全量实时计算 Flink版快照实时计算 Flink版计算

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink 1.13版本 sql中如果一直没有数据到来，则窗口不触发计算sql中怎么设置空闲时间呢？

405

2

0

Flink增量快照有什么优势

200

1

0

Flink作业所需要的CPU及内存的计算方法

840

1

0

Flink默认先全量再增量同步，全量时会对checkpoint上锁，导致请求检查点时失败，任务重启

542

1

0

我们在用flink sql 做实时指标计算时，insert into语句能否动态修改？

296

0

0

在Flink CDC中，mysql-cdc一次添加多张表进行全量初始化，有没有表级别的全量同步完成？

284

1

0

在Flink CDC中增量快照阶段checkpoint失败有啥排查方式吗？

418

1

0

在Flink CDC中使用窗口去重然后进行累计求和计算，输出的求和结果会出现跳变，为什么？

211

0

0

在Flink CDC中数据量太大第一次全量同步咋整？

212

1

0

在Flink CDC中读取全量和增量数据能不能安装数据的生成顺序输出？

169

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

有用flink cdc同步mysql到hive这样搞过的源码吗?

Flink CDC里这个问题怎么解决？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

flinkcdc在IDEA运行正常，打包就报错

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何在 PyFlink 1.10 中自定义 Python UDF？

使用 Kafka 和 Flink 构建实时数据处理系统

基于 Flink 构建 CEP 引擎的挑战和实践

实时计算在天猫双十一大屏中的应用

开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？

展开全部

还有其他疑问?