文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC分片时执行区间查询的速度会越来越慢，这是为什么？

Flink CDC分片时执行区间查询的速度会越来越慢，但是实际sql在数据库里面执行是很快的，这是为什么？

展开

收起

真的很搞笑 2023-11-01 14:59:17 288 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

sunrr

Flink CDC在处理大规模数据时，将数据分片进行处理，以提高处理效率和并行度。然而，随着数据量的增大，分片后的区间查询可能会遇到性能瓶颈，导致查询速度变慢。另一方面，Flink CDC初始全量同步时的速度较慢，这是因为它使用了Debezium作为捕获数据变化的引擎。Debezium在读取数据时，会使用全局锁或者快照隔离级别，这样会影响源端数据库的性能和并发能力。

在实际的SQL查询中，如果数据库已经针对这些查询进行了优化，那么即使数据量很大，查询速度也可能仍然较快。此外，数据库可能使用了特定的索引、统计信息或缓存等技术来加速查询。因此，尽管Flink CDC在处理大数据时的查询速度可能会降低，但实际的SQL查询在数据库中执行的速度仍然可以保持较快。

2023-11-02 14:27:22

赞同 1 展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在Flink CDC中执行区间查询速度越来越慢的原因可能是由于数据分区太多，导致查询任务在网络传输以及磁盘I/O等方面消耗大量资源。如果查询任务运行一段时间后变慢，可能是由于内存资源紧张，系统负载过高所致。
为了避免这种情况的发生，您可以采取以下措施：
1. 降低查询范围，缩小查询区间的大小；
2. 调整Flink CDC任务的并发度；
3. 提升Flink CDC任务的资源分配；
4. 使用索引优化查询效率；
5. 对数据库进行优化，提升查询性能。
2023-11-02 14:27:22

赞同展开评论

问答分类：

流计算数据库 SQL 实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版分片实时计算 Flink版查询实时计算 Flink版cdc查询实时计算 Flink版cdc分片

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

各位有没有遇到过spark sql查询hudi 数据时没有办法查到flink cdc ？

374

2

0

Flink cumulate窗口设置8hour步长，1day区间为啥一直没有数据输出呀？

221

0

0

在Flink CDC中，可以看下日志，是卡在最后一个分片了吗？

242

1

0

给已有的维表开启binlog，然后再Flink中查询一直显示运行中，没有数据；这是为什么呢？

202

1

0

通过flink的SQL作业生成的宽表的数据结果，跟拼接代码在holo里跑出来的查询结果不一致为什么？

262

0

0

在Flink CDC中，这个是分片信息吗？

209

1

0

Flink batch 模式下实现多路多分片读有示例么？

178

0

0

Hologres当表正在实时写入（Flink、数据集成等）时查询时报错ERROR: inter...

154

1

0

问一下Flink，查询insert into的表，没有数据，知道是怎么回事么？

261

0

0

实时计算平台上的flink作业血缘这块有对外暴露OpenAPI进行查询么？

288

5

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

数据库参数调优实战：100个参数里真正影响性能的不到10个

开源外卖小程序搭建指南：打造属于自己的同城配送平台

AI大模型工具深度运用实践：AI客服系统怎么搭建？基于大语言模型的企业智能客服实践与应用分析

PolarDB-X 分布式数据库实战：从分库分表到云原生分布式的架构演进

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Segment Key主要应用在哪些场景？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

flinkcdc在IDEA运行正常，打包就报错

Flink cdc sqlserver 希望不同步某些数据行

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC底层监听是不是用到flink定时任务还是啥？

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

基于实时计算（Flink）打造一个简单的实时推荐系统

展开全部

还有其他疑问?