PostgreSQL 双节点流复制如何同时保证可用性、可靠性(rpo,rto) - (半同步,自动降级方法实践)

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: PostgreSQL 双节点流复制如何同时保证可用性、可靠性(rpo,rto) - (半同步,自动降级方法实践)

背景

两节点HA架构,如何做到跨机房RPO=0(可靠性维度)?同时RTO可控(可用性维度)?

半同步是一个不错的选择。

1、当只挂掉一个节点时,可以保证RPO=0。如下:

主 -> 从(挂)    
  
主(挂) -> 从  

2、当一个节点挂掉后,在另一个节点恢复并开启同步模式前,如果在此期间(当前)主节点也挂掉,(虽然此时从库活了(但由于还未开启同步模式)),则RPO>0。 如下:

主(挂) -> 从(OPEN,但是之前从挂过,并且还还未转换为同步模式)  
  
与两个节点同时挂掉一样,RPO>0   

3、如何保证RTO时间可控?

我们知道,在同步模式下,事务提交时需要等待sync STANDBY的WAL复制反馈,确保事务wal落多个副本再反馈客户端(从动作上来说,先持久化主,然后同步给sync从,并等待sync从的WAL 同步位点的反馈),当STANDBY挂掉时,等待是无限期的,所以两节点的同步复制,无法兼顾可用性(RTO)。那么怎么兼顾可用性呢?

可以对(pg_stat_activity)等待事件的状态进行监测,如果发现同步事务等待超过一定阈值(RTO阈值),则降级为异步模式。

降级不需要重启数据库。

3.1 改配置

3.2 reload (对已有连接和新建连接都会立即生效)。

3.3 cancel 等待信号(针对当前处于等待中的进程)。

4、降级后,什么情况下恢复为同步模式?(升级)

同样可以对(pg_stat_replication)状态进行监测,当sync standby处于streaming状态时,则可以转换为同步模式。

升级不需要重启数据库。

4.1 改配置

4.2 reload。立即生效 (对已有连接和新建连接都会立即生效)。

涉及技术点

1、事务提交参数

synchronous_commit    
    
on, remote_apply, remote_write, local    

2、同步配置参数

synchronous_standby_names     
    
[FIRST] num_sync ( standby_name [, ...] )    
ANY num_sync ( standby_name [, ...] )    
standby_name [, ...]    
    
    
ANY 3 (s1, s2, s3, s4)    
    
FIRST 3 (s1, s2, s3, s4)    
    
*  表示所有节点    

3、活跃会话,查看事务提交时,等待事件状态

pg_stat_activity    

等待事件

https://www.postgresql.org/docs/11/monitoring-stats.html#MONITORING-STATS-VIEWS

wait_event='SyncRep'  

4、流状态,pg_stat_replication

 sync_state='sync'  
state     
    text      
    Current WAL sender state. Possible values are:    
    
startup: This WAL sender is starting up.    
    
catchup: This WAL sender's connected standby is catching up with the primary.    
    
streaming: This WAL sender is streaming changes after its connected standby server has caught up with the primary.    
    
backup: This WAL sender is sending a backup.    
    
stopping: This WAL sender is stopping.    

实践

环境

1、主

postgresql.conf    
    
synchronous_commit = remote_write    
wal_level = replica    
max_wal_senders = 8    
synchronous_standby_names = '*'    

2、从

recovery.conf    
    
restore_command = 'cp /data01/digoal/wal/%f %p'    
primary_conninfo = 'host=localhost port=8001 user=postgres'     

同步降级、升级 - 实践

关闭standby,模拟备库异常。看如何实现半同步。

模拟STANDBY恢复,看如何模拟升级为同步模式。

1、监测 pg_stat_activity,如果发现事务提交等待超过一定阈值(RTO保障),降级

select max(now()-query_start) from pg_stat_activity where wait_event='SyncRep';     

2、查看以上结果等待时间(RTO保障)

当大于某个阈值时,开始降级。

注意NULL保护,NULL表示没有事务处于 SyncRep 等待状态。

3、降级步骤1,修改synchronous_commit参数。改成WAL本地持久化(异步流复制)。

alter system set synchronous_commit=local;    

4、降级步骤2,生效参数,RELOAD

select pg_reload_conf();    

5、降级步骤3,清空当前等待队列(处于SyncRep等待状态的进程在收到CANCEL信号后,从队列清空,并提示客户端,当前事务本地WAL已持久化,事务正常结束。)

select pg_cancel_backend(pid) from pg_stat_activity where wait_event='SyncRep';    

6、收到清空信号的客户端返回正常(客户端可以看到事务正常提交)

postgres=# end;    
WARNING:  01000: canceling wait for synchronous replication due to user request    
DETAIL:  The transaction has already committed locally, but might not have been replicated to the standby.    
LOCATION:  SyncRepWaitForLSN, syncrep.c:264    
    
COMMIT    

事务的redo信息已在本地WAL持久化,提交状态正常。

当前会话后续的请求会变成异步流复制模式(WAL本地持久化模式(synchronous_commit=local))。

如何升级?:

7、升级步骤1,监测standby状态,sync_state='sync'状态的standby进入streaming状态后,表示该standby与primary的wal已完全同步。

select * from pg_stat_replication where sync_state='sync' and state='streaming';    

有结果返回,表示standby已经接收完primary的wal,可以进入同步模式。

8、升级步骤2,将事务提交模式改回同步模式( synchronous_commit=remote_write ,事务提交时,等sync standby接收到wal,并write。)

alter system set synchronous_commit=remote_write;    

9、升级步骤3,生效参数,RELOAD (所有会话重置synchronous_commit=remote_write,包括已有连接,新建的连接)

select pg_reload_conf();    

小结

1、在不修改PG内核的情况下,通过外部辅助监测和操纵(例如5秒监控间隔)),实现了两节点的半同步模式,在双节点或单节点正常的情况下,保证RPO=0,同时RTO可控(例如最长wait_event='SyncRep'等待时间超过10秒)。

2、内核修改建议,

降级:可以在等待队列中加HOOK,wait_event='SyncRep'等待超时后降级为异步。

升级:在wal_sender代码中加hook,监测到standby恢复后,改回同步模式。

参考

《PostgreSQL 一主多从(多副本,强同步)简明手册 - 配置、压测、监控、切换、防脑裂、修复、0丢失 - 珍藏级》

https://www.postgresql.org/docs/11/monitoring-stats.html#MONITORING-STATS-VIEWS

《PostgreSQL 时间点恢复(PITR)在异步流复制主从模式下,如何避免主备切换后PITR恢复走错时间线(timeline , history , partial , restore_command , recovery.conf)》

PostgreSQL 许愿链接

您的愿望将传达给PG kernel hacker、数据库厂商等, 帮助提高数据库产品质量和功能, 说不定下一个PG版本就有您提出的功能点. 针对非常好的提议,奖励限量版PG文化衫、纪念品、贴纸、PG热门书籍等,奖品丰富,快来许愿。开不开森.

9.9元购买3个月阿里云RDS PostgreSQL实例

PostgreSQL 解决方案集合

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
1月前
|
关系型数据库 分布式数据库 数据库
PolarDB常见问题之数据库不能自己减少节点如何解决
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
2月前
|
监控 安全 关系型数据库
在规划阿里云RDS跨区迁移资源和服务可用性
在规划阿里云RDS跨区迁移资源和服务可用性
260 4
|
3月前
|
关系型数据库 MySQL 分布式数据库
PolarDB MySQL版标准版计算节点规格详解
PolarDB MySQL版标准版计算节点规格详解
117 1
|
4月前
|
存储 安全 关系型数据库
PolarDB行列存节点的路由不是通过proxy路由的 是节点内部的路由吗?
PolarDB行列存节点的路由不是通过proxy路由的 是节点内部的路由吗?
19 0
|
7月前
|
SQL 关系型数据库 分布式数据库
PolarDB在尝试同步DDL任务时出现了问题
PolarDB在尝试同步DDL任务时出现了问题
72 1
|
30天前
|
关系型数据库 MySQL OLAP
PolarDB +AnalyticDB Zero-ETL :免费同步数据到ADB,享受数据流通新体验
Zero-ETL是阿里云瑶池数据库提供的服务,旨在简化传统ETL流程的复杂性和成本,提高数据实时性。降低数据同步成本,允许用户快速在AnalyticDB中对PolarDB数据进行分析,降低了30%的数据接入成本,提升了60%的建仓效率。 Zero-ETL特性包括免费的PolarDB MySQL联邦分析和PolarDB-X元数据自动同步,提供一体化的事务处理和数据分析,并能整合多个数据源。用户只需简单配置即可实现数据同步和实时分析。
|
1月前
|
关系型数据库 分布式数据库 数据库
PolarDB常见问题之PolarDB影响下游的binlogl同步如何解决
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
2月前
|
Oracle 关系型数据库 分布式数据库
PolarDB for PostgreSQL报错问题之跨节点执行报错如何解决
PolarDB for PostgreSQL是基于PostgreSQL开发的一款云原生关系型数据库服务,它提供了高性能、高可用性和弹性扩展的特性;本合集将围绕PolarDB(pg)的部署、管理和优化提供指导,以及常见问题的排查和解决办法。
|
3月前
|
Cloud Native 关系型数据库 MySQL
PolarDB MySQL企业版:云原生架构,超高性能与可靠性的完美结合
在数字化时代,数据已成为企业的核心资产。对于现代企业来说,选择一款高性能、高可靠性、高性价比的数据库至关重要。阿里巴巴自研的云原生HTAP数据库——PolarDB MySQL企业版,正是这样一款满足企业需求的理想选择。
388 1
|
8月前
|
关系型数据库 MySQL 数据库
MySQL高可用与复制:确保稳定性与可靠性
本文深入研究了MySQL数据库中的高可用性与复制策略,通过详细的代码示例,介绍了复制的原理与架构,主从复制与读写分离的应用,以及高可用方案中的主备切换和故障转移。复制技术基于主从架构,使数据在多个数据库之间保持一致,提供了高可用性和数据冗余的保障。通过主从复制,数据库不仅能够实现高可用性,还可以通过读写分离来分担主数据库的负载,提升系统的性能。在高可用方案中,主备切换和故障转移是关键策略,可以在主数据库故障时快速切换到备库,确保系统的连续性。
142 0

相关产品

  • 云原生数据库 PolarDB