开发者社区大数据与机器学习实时计算 Flink 正文

想请问一下各位，postgresql cdc 有没有遇到 wal 目录过大不释放的问题？已经开启过

想请问一下各位，postgresql cdc 有没有遇到 wal 目录过大不释放的问题？已经开启过checkpoint了

展开

收起

游客3oewgrzrf6o5c 2022-08-20 17:17:27 555 版权

阿里云 AI 助理回答

针对您提到的PostgreSQL CDC中WAL目录过大且不释放的问题，即使已经开启了checkpoint，这可能是由几个因素导致的：

Replication Slot的影响：当使用Logical Replication（如Debezium等CDC工具）时，会创建Replication Slot来保留WAL日志，以确保数据的一致性。如果消费端处理速度较慢或未及时更新其在slot中的位置（restart_lsn），会导致WAL文件积累不被清理。您可以检查是否有延迟的Replication Slot：
```
SELECT 
 slot_name, 
 pg_size_pretty(pg_wal_lsn_diff(pg_current_wal_lsn(), restart_lsn)) AS wal_delay 
FROM pg_replication_slots 
WHERE restart_lsn IS NOT NULL;
```
如果发现有较大的WAL延迟，需要优化消费客户端的性能或增加上传消费位点的频率。
参数配置不当：
- wal_keep_size 或 wal_keep_segments：这些参数控制了WAL日志在主服务器上保留的数量或大小。如果设置得过高，可能会导致磁盘空间被不必要的WAL文件占用。推荐值分别为2048和128（根据PostgreSQL版本而定），但请根据实际情况调整。
- max_wal_size 和 min_wal_size：确保这两个参数设置合理，避免WAL日志因大小管理不当而累积。推荐值可参考公式计算，但需结合实际应用场景调整，以平衡存储需求与性能影响。
Checkpoint行为：虽然已开启checkpoint，但要确认checkpoint是否频繁且有效执行。检查pg_stat_bgwriter视图中的checkpoints_timed和checkpoints_req等字段，了解checkpoint触发情况。同时，确认checkpoint相关的配置（如checkpoint_timeout, checkpoint_completion_target）是否适合当前负载。
其他潜在问题：检查是否有长时间运行的事务未提交，这也会阻止旧的WAL日志被回收。另外，确认没有其他备份或归档进程影响WAL的清理流程。

综上所述，解决WAL目录过大问题的关键在于排查并优化Replication Slot的使用、调整相关参数至合适范围，并确保checkpoint机制有效运作。通过上述步骤，应能有效缓解WAL日志堆积导致的磁盘空间问题。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

关系型数据库 PostgreSQL 实时计算 Flink版云原生数据库 PolarDB

问答标签：

PostgreSQL wal PostgreSQL cdc PostgreSQL目录云数据库 RDS PostgreSQL 版cdc 云数据库 RDS PostgreSQL 版wal

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。