文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

如果Flink CDC pgsql库10几分钟更新几千万条数据，如何保证cdc任务不报错，内存不溢出

如果Flink CDC pgsql库10几分钟更新几千万条数据，复制槽一下子从几十M到几千M，这种情况下如何保证cdc任务不报错，内存不溢出

展开

收起

wenti 2023-02-06 15:05:41 584 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

哈哈是我

调整 Flink 任务的资源配置：

调整 Flink 任务的并行度，合理分配 TaskManager 和每个 TaskManager 分配给 Task 的内存大小。
使用 RocksDB State Backend，此后端适合处理大状态场景且数据存储在磁盘上。
优化 Flink CDC 连接器的配置：

如使用 Debezium 连接器，则可以通过配置 debezium.snapshot.fetch.size 控制在快照阶段每次读取的行数。
对于 Debezium PostgreSQL 连接器，确保使用 wal2json 插件来提高性能。
管理 PostgreSQL 复制槽：

确保 PostgreSQL 生命周期配置得当，例如 wal_keep_segments 设置为足够的值以保证 WAL 日志不会在 Flink 处理之前就被删除。
如果曾因复制槽而消耗过多资源，考虑定期清理不使用的复制槽。
处理拥塞的 Flink 检查点：

调整 checkpointing 配置，优化检查点间隔和最小暂停时间以减缓快照速度，并发运行检查点以避免过高的延迟。
当处理高数据吞吐时，使用异步快照以免阻塞数据处理。
调整网络和缓冲区配置：

增加 Flink 的网络缓冲区大小，以应对高数据吞吐量。
如果由于网络通信问题导致积压，可以尝试增加 taskmanager.network.memory.fraction 或 taskmanager.network.memory.min/may 的值。
监控性能和资源使用情况：

监控 Flink 任务的吞吐量、延迟和资源使用情况，及时响应可能的性能瓶颈。
优化业务逻辑：

如果可能，优化业务逻辑，减少一次性更新的数据量。
启用 backpressure 监控：

通过 Flink 的 Web UI 监控 backpressure 情况，并相应地调整配置。

2024-02-26 17:57:04

赞同展开评论
co63oc_

GitHub https://github.com/co63oc/cloud

测试内存占用，如果较少增加内存

2023-02-11 18:26:51

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版报错实时计算 Flink版任务实时计算 Flink版数据实时计算 Flink版cdc库

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink cdc同步数据的资源，比如内存，cpu这些有什么参考依据吗？

440

11

0

Tair持久内存版如何保证数据的实时持久化？

240

1

0

在Flink CDC中，oraclecdc3.0同步36张表导致pga内存过高报错？

306

0

0

Flink CDC 如何保证数据读取的一致性？

288

1

0

对于Flink CDC，偶然重启，怎么会内存溢出呢？

201

0

0

Flink CDC中 2.2.1 造成oracle session数过多，吃内存有优化的方案没呢？

444

7

0

flink cdc抽mysql中的数据和实时数据流进行join，托管内存为什么会直接被拉满？

224

0

0

大佬，oracle单表增量同步时候源库服务器额外占用内存近2g，这不正常吧

767

1

0

服务器硬件中的内存宽带是指什么呢？

1223

1

0

TSDB查询性能以及服务器内存

1175

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

Arduino IDE下载安装和汉化一篇搞定（2026最新）

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

Hologres + Flink 实时OLAP分析实战：从T+1报表到秒级洞察的数据平台

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

热门讨论

热门文章

Flink CDC刚刚写了几条数据，但是里面有点问题，其他字段都是正常的。这是咋回事呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink cdc sqlserver 希望不同步某些数据行

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Segment Key主要应用在哪些场景？

Flink CDC 能适配达梦不？

flinkcdc在IDEA运行正常，打包就报错

有人遇到flink打不开web界面吗？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

有用flink cdc同步mysql到hive这样搞过的源码吗?

展开全部

数据仓库介绍与实时数仓案例

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于Flink的实时日志分析系统实践

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

Apache Flink 零基础入门（三）：DataStream API 编程

Apache Flink 零基础入门（一）：基础概念解析

Apache Flink 零基础入门（二）：开发环境搭建和应用的配置、部署及运行

PyFlink 社区扶持计划正式上线！

Apache Flink 进阶（四）：Flink on Yarn/K8s 原理剖析及实践

展开全部

还有其他疑问?