背景
1、产品的问题点
- slot不支持failover
2、问题点背后涉及的技术原理
- PG的逻辑日志解析功能需要slot来记录解析的WAL日志位点, 下次解析从位点继续. 除了记录位点, PG还需要依赖位点来保留未解析的WAL日志, 以及保留用于解析WAL日志的catalog版本(例如表结构信息). 但是SLOT不支持failover, 使用PG流复制构建的主从HA架构下一旦发生HA, 从库(切换成主库)是没有SLOT信息的.
- 使用pg_upgrade进行大版本升级时,slot也会被清理.
3、这个问题将影响哪些行业以及业务场景
- 使用PG流复制构建的主从HA架构, 并且有逻辑日志订阅需求的场景(例如跨实例共享某些表的数据、将数据库的增量日志同步到其他系统, 例如mq或者搜索引擎等. 使用了PG的pub,sub来进行实例之间的表级数据同步).
4、会导致什么问题?
- 发生主从切换后, SLOT位点丢失, 需要重建SLOT, 存在丢失增量数据的风险. (例如老的主节点与切换到新的主库新建的slot位置之间存在WAL GAP.)
- 大版本升级无法保留slot
5、业务上应该如何避免这个坑
- 发生HA时, 立即在新的主库新建同名的slot, 但是wal gap导致的逻辑增量日志丢失无解.
- 大版本升级属于计划内维护, 可以在升级前消费掉所有的wal日志, 并且在升级后立即创建slot. 保证没有wal gap导致的逻辑增量日志问题.
6、业务上避免这个坑牺牲了什么, 会引入什么新的问题
- 增加了管理复杂度
7、数据库未来产品迭代如何修复这个坑
- slot failover功能. (RDS PG 已修复, 期待PolarDB PG开源这个功能)