Flink CDC中这个问题什么原因?
PostgreSQL(10.0) replication slot消费完后restart_lsn不变导致PG的WAL日志不被清理。(https://github.com/ververica/flink-cdc-connectors/issues/106)
目前我们排查的情况如下:
1、最开始以为是因为没有数据更新导致,所以按说明增加了对应的心跳表;
2、现在是数据能正常同步到HUDI;
3、心跳表中的数据也是正常的在更新。
4、Restrar_lsn就是不变,导致日志积压。
根据你提供的信息,这个问题是由于 PostgreSQL replication slot 的 restart_lsn 不变导致 PG 的 WAL 日志没有被清理而引起的。这个问题的具体原因可能有多种可能性,以下是一些可能导致该情况的原因:
Flink CDC 配置问题:检查 Flink CDC 的配置是否正确,特别是涉及到 PostgreSQL replication slot 的相关配置项。确保配置中指定了正确的 replication slot 名称,并且 Flink CDC 正确地监测和更新 replication slot 的状态。
PostgreSQL 配置问题:检查 PostgreSQL 数据库的配置,确保已启用 WAL 日志和适当的日志清理策略。确保 replication slot 的配置和管理是正确的,并且数据更新操作会触发 WAL 日志的生成和清理。
数据库连接问题:确保 Flink CDC 和 PostgreSQL 之间的连接是稳定的,并且没有异常断开或重连的情况。检查网络连接、防火墙设置以及连接池配置等因素,确保连接的可靠性和稳定性。
PostgreSQL 版本兼容性:确认你使用的 Flink CDC 版本是否与 PostgreSQL 10.0 兼容,并且支持对应版本的 replication slot 功能。有时,特定版本的 Flink CDC 可能存在与某些 PostgreSQL 版本的兼容性问题,导致出现不正常的行为。
这问题已经解决了啊 对于业务很空闲但是数据需要同步的库,可以自定义脚本,定期更新无用表,手工推进lsn。此回答整理至钉群“Flink CDC 社区”。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。