备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

问下大佬们，Flink CDC mysql到pg。sink节点busy 100%，导致source？

问下大佬们，Flink CDC mysql到pg。sink节点busy 100%，导致source也报错，有人遇到吗

展开

收起

真的很搞笑 2023-06-18 12:33:30 171 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

根据您描述的问题，Flink CDC 从 MySQL 同步到 PostgreSQL 的过程中，Sink 节点的负载达到 100%，导致 Source 节点也报错。这种情况通常与作业的资源分配、反压问题或 Sink 节点的性能瓶颈有关。以下是详细的分析和解决方案：

1. 问题原因分析

1.1 反压传递

当 Sink 节点处理能力不足时，会导致下游算子（如聚合算子或写入操作）出现反压。反压会向上游传播，最终影响到 Source 节点，导致 Source 无法正常消费数据。
如果 MySQL CDC 源表在增量阶段读取 Binlog 数据的速度过快，而 Sink 节点无法及时处理这些数据，就会形成积压。

1.2 Sink 节点性能瓶颈

PostgreSQL Sink 节点可能由于以下原因导致性能瓶颈：
- 批量写入配置不当：如果未启用批量写入或批量大小设置不合理，可能导致频繁的小批量写入，增加数据库压力。
- PostgreSQL 性能限制：目标数据库的连接数、写入性能或索引维护可能成为瓶颈。
- 网络延迟：如果 Flink 集群与 PostgreSQL 数据库之间的网络延迟较高，也可能导致写入效率下降。

1.3 资源分配不足

如果 Flink 作业的 TaskManager 或 JobManager 内存不足，可能会导致 OOM（内存溢出）或任务调度延迟，进一步加剧反压问题。

2. 解决方案

2.1 优化 Sink 节点性能

启用批量写入：

在 PostgreSQL Sink 表的配置中，启用批量写入功能，并合理设置批量大小（batch-size）和刷新间隔（flush-interval）。例如：

CREATE TABLE pg_sink (
    id BIGINT,
    name STRING,
    PRIMARY KEY (id) NOT ENFORCED
) WITH (
    'connector' = 'jdbc',
    'url' = 'jdbc:postgresql://<host>:<port>/<database>',
    'table-name' = '<table>',
    'username' = '<username>',
    'password' = '<password>',
    'sink.buffer-flush.max-rows' = '5000', -- 批量写入行数
    'sink.buffer-flush.interval' = '2s'   -- 刷新间隔
);

这可以减少频繁的小批量写入，提升写入效率。

优化 PostgreSQL 性能：
- 增加 PostgreSQL 的最大连接数（max_connections），确保有足够的连接供 Flink 使用。
- 禁用或延迟索引更新：在大批量写入时，可以临时禁用目标表的索引，待写入完成后再重建索引。
- 调整 PostgreSQL 的 work_mem 和 maintenance_work_mem 参数，以提高写入性能。
检查网络延迟：
- 确保 Flink 集群与 PostgreSQL 数据库之间的网络延迟较低。如果延迟较高，可以考虑将两者部署在同一 VPC 内。

2.2 调整 Flink 作业资源配置

增加 TaskManager 内存：
- 如果 TaskManager 出现 OOM，可以通过调整 taskmanager.memory.process.size 参数来增加内存。例如：
```
taskmanager.memory.process.size: 4g
```
调整并行度：
- 根据作业的负载情况，适当增加或减少并行度。如果 Sink 节点负载过高，可以尝试增加 Sink 的并行度，分散写入压力。
开启自动调优：
- 开启 Flink 的自动调优功能，动态调整 Source 和 Sink 的并发度。例如：
```
SET 'table.optimizer.auto-tuning.enabled' = 'true';
```

2.3 处理反压问题

监控反压：
- 使用 Flink Web UI 监控作业的反压情况，定位具体的瓶颈节点。
- 如果发现 Sink 节点是主要瓶颈，可以优先优化 Sink 节点的性能。
调整 Source 并发度：
- 如果 Source 节点的并发度过高，可能导致数据积压。可以适当降低 Source 的并发度，使其与 Sink 的处理能力匹配。

2.4 检查 Binlog 消费状态

避免 Binlog 清理：
- 确保 MySQL 的 Binlog 文件在作业运行期间不会被清理。可以通过调整 RDS MySQL 的 Binlog 过期策略来延长保留时间。例如：
```
SET GLOBAL binlog_expire_logs_seconds = 86400; -- 保留 24 小时
```
重新启动作业：
- 如果 Binlog 已被清理，需要全新启动作业，并从指定的位点重新消费数据。

3. 其他注意事项

避免不兼容的表结构变更：
- 如果在同步过程中对 MySQL 源表进行了表结构变更，可能会导致作业报错。建议在变更前停止作业，并删除下游表后重新启动同步。
启用 CDC Source 复用：
- 如果作业中有多个 MySQL CDC 源表，建议启用 Source 复用功能，减少对 MySQL 数据库的压力。例如：
```
SET 'table.optimizer.source-merge.enabled' = 'true';
```
升级 Flink 版本：
- 如果使用的是较旧版本的 Flink，建议升级到最新版本（如 VVR 8.0.9 及以上），以获得更好的性能和稳定性。

通过上述优化措施，您可以有效缓解 Sink 节点的性能瓶颈，解决反压问题，并确保 Flink 作业的稳定运行。如果问题仍然存在，建议结合 Flink Web UI 的监控数据进一步分析具体瓶颈。您可以复制页面截图提供更多信息，我可以进一步帮您分析问题原因。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

关系型数据库 MySQL 流计算云数据库 RDS MySQL 版实时计算 Flink版

问答标签：

实时计算 Flink版CDC flink云数据库 RDS MySQL 版实时计算 Flink版cdc mysql 实时计算 Flink版mysql cdc云数据库 RDS MySQL 版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink cdc sql将一个source，sink到pg和kafka，这种场景支持吗?

198

0

0

Flink source这是不是还是单并行度消费，其他并行度消费不到？

104

1

0

Flink的vvp里面什么情况下，source和sink会这样拆开展示？

121

1

0

flink作为source jar作业代码里面消费位点的订阅方式和控制台的有无状态启动有冲突吗？

115

1

0

在Flink CDC中你source写了两个，可以写一个测试下吗？

106

1

0

在Flink CDC中，能够添加 source table 所在的 host 和 port？

105

1

0

Flink CDC中batch模式下这两个source都是加载同一张表没有办法优化成一个读取任务么？

114

0

0

为什么Flink source节点显示为finished

200

1

0

Flink CdC 中的 source 支持这个吗？

80

1

0

Flink这两个 select 能完全消费到source table里面的数据吗？

78

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

聊下几次线上删除MySQL导致的故障

基于springboot的快递仓储管理系统

Postgresql入门之psql用法详解（一）- 命令行参数详解

阿里云 ECS 按量付费价格详解：1 小时收费标准与多配置报价（今年最新）

Postgresql入门之psql用法详解（二）- 元命令详解（\a-\dc）

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

flink cdc同步的源表，一定要有主键么？

flink cdc source端能降低消费速度嘛？

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

请问一下Flink mysqlcdc获取到数据之后关联结果不更新这个怎么办?

flink datastream ，向clickhouse插入数据时怎么关闭插入时更新,

Flink CDC写 PG，列为数组，为什么？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

广告场景下的实时计算

展开全部

还有其他疑问?