《PolarDB for PostgreSQL源码与应用实战》——PolarDB for PostgreSQL高可用原理(上)

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 《PolarDB for PostgreSQL源码与应用实战》——PolarDB for PostgreSQL高可用原理(上)

高可用集群架构


(一)高可用架构


首先我们先了解一下PolarDB for PG的高可用架构。


image.png


总的来说,PolarDB for PG的高可用架构是把物理复制跟一致性协议相结合,来保证各个节点上的默认值的强一致性。我们看一下原生PG的物理复制方案,也就是流复制方案。


PG原生的流复制支持异步、同步、Quorum Base的机制来同步WAL日志,我们简单分析一下这三种复制方式。首先是同步复制,同步复制的首要目标是保证不丢数据,但其实它会有一些问题,第一个问题是它无法满足可用性的要求,当备库出现故障的时候,或者网络链路上有抖动的时候,这个时候可能会影响主库的可用性,或者主库的RT。其次,它本身并不具备故障自动切换的能力,意味着它并不会去探测主库的可用性,更不用说触发自动的故障切换。另外,旧的主库在故障恢复之后,可能无法重新加入到集群里面来。比如当事务在主库上WAL日志已经持久化成功了,但是在备库上还没有收到日志的时候,如果主库出现故障了,这个时候可能需要通过手动或者通过管控系统来把备库promote成新的主库。


过了一段时间之后,如果旧的主库恢复了,正常的逻辑应该是旧的主库以Standby的方式重新从新的主库上同步WAL日志,但这个时候由于旧的主库在挂掉之前,本身自己会有一些多余的WAL日志,所以这个时候是无法直接从主库上拉取日志,因为拉取日志的时候,会发现自己本身已有的日志在主库上不存在,在流复制里面它是会失败的,所以说这个时候我需要先执行一下pg_rewind。另外,对于不丢数据这一点,其实它也不完全是丢数据,比如说到Master上面,其实是在事务提交的时候,它会等待Standby同步日志,从而保证当Master可见的数据在Standby上肯定是已经同步到了。但是当Master写入了本地日志,然后Standby上还没有写入日志的时候,Master重启了,这时候Master重启之后,它会回放自己所有WAL日志,导致没有被同步到Standby的日志也会被回放。回放之后会出现一个现象,就是Master上已经看到的这些数据,但是对应的WAL日志还没有同步到Standby上,所以严格意义上来说,同步复制也并不能保证不丢数据。


其次我们看一下异步复制,异步复制跟同步复制相比,不需要等待StandbyWAL日志持久化成功。它发送过去行了,根本不关心备库到底有没有持久化成功,然后本地的事务就可以提交了。跟同步复制相比,它可用性比较好,或者说性能比较好,但它的问题是可能会丢数据。


最后一个是Quorum复制,Quorum复制看起来是说如果我们使用了一个多数派的方案之后,是否可以保证不丢数据。但其实在一致性协议里,它除了多数派同步的方案之外,它本身还会有一些选主、日志一致性、集群在线变更等方面的逻辑,但是PG本身Quorum复制里面,它并没有涉及到这些逻辑,所以从本质上来说,它其实并不是一个完整的RPO=0的高可用方案。


那么分析完PG的三种复制方式之后,我们再看一下我们PolarDB for PG的一个高可用方案。

image.png


首先我们通过把一致性协议引入到物理复制里,使用的一致性协议是阿里的X-Paxos协议,X-Paxos协议在阿里内部的业务中,包括阿里云的多个产品中,已经稳定使用了很长一段时间,包括企业版的AliSQL、PolarDB for MySQL以及PolarDB-X等产品,都使用了X-Paxos,具体的协议这里就不详细展开阐述,跟其他的一致性协议基本类似。这块主要讲一下,我们在物理复制里面引入了一致性协议之后的主要能力。


首先整个高可用集群是一个单点写入、多点可读的集群系统,其中Leader节点可以作为单点的写入节点来对外提供读写服务,产生了WAL日志之后,它会向其他节点进行同步,Follower节点是不可写入的,它主要是接受来自于Leader的WAL日志,然后进行回放,最终它可以对外提供一个只读服务。

那么我们高可用系统的特点是什么?


首先,它能保证集群数据的强一致性,也就是RPO=0。当多数派节点的WAL日志写入成功后,我们才认为日志是提交成功了。


另外一点是本身我们支持自动failover的,当发生failover之后,WAL日志会首先跟Leader对齐,然后再次从Leader拉取日志,对齐主要是通过一致性协议来实现,后面会详细讲一下。


第三个特点是刚才提到自动failover,大家知道在我们的高可用集群里面,只要半数以上节点存活的时候,就能保证集群正常对外提供服务。但是当Leader节点出现故障的时候,我们就会自动触发集群的重新选主流程,然后由新主对外提供读写服务,然后Follower节点也会自动从新的Leader节点上同步WAL日志,同时自动跟新的Leader对齐WAL日志。


第四点是在线集群变更,就是可以在线增删节点,包括手动切换,这些操作不影响业务的正常运行,具体也是由一致性协议来保证的,最终集群内的配置肯定会达成一致。即使在集群配置变更过程中发生一些异常,比如主库挂了或其中一个备库挂了这样的情况,最终集群成员状态还是能保证一致性。


除了Leader、Follower节点之外,我们在集群中还有其他两个节点,其中一个是Logger节点。Logger节点不存储数据,它从Leader中拉取到日志之后,它不进行回放,只保留实时日志,日志的目的是三个节点成本与主备基本相当。


另外一个是Learner节点,它本身没有多数派的决策权,但是它能提供只读服务。比如Leader节点在判断多数派节点的时候,其实并不考虑Learner节点,这个节点主要作用是它作为加节点的一个中间状态,比如新加的节点相对于Leader节点延迟比较大的时候,此时如果直接把它当做一个多数派决策的节点加进来,可能会影响Leader的可用性,或者影响Leader的提交延迟,所以我们先把它以Learner的角色加入到集群中,让它先同步数据,当数据基本追上的时候,我们再把它升级成Follower节点。


其次,Learner节点另外一个作用就是我们可以把它作为一个异地的灾备节点,主要特点是当时发生地点切换之后,自动从新的地方同步日志,对于原生的standby,当发生了主库切换之后,它并不会自动地从新主库上同步日志。


在集中部署方面,我们支持跨机房和跨域的部署,包括同机房三副本,同城三机房三副本,以及两地三机房五副本,还有三地三机房五副本的部署。


另外是跨域,刚才提到可以用Learner节点进行灾备,此时并不会影响Leader节点的可用性。另外,我们这个架构里最重要的一点也是比较关键一点,就是我们兼容PG原生的流复制和逻辑复制,能保证下游的消费者不受影响。


《PolarDB for PostgreSQL源码与应用实战》——PolarDB for PostgreSQL高可用原理(中) https://developer.aliyun.com/article/1232683?groupCode=polardbforpg

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
5月前
|
存储 Cloud Native 关系型数据库
PolarDB 高可用架构设计与实践
【8月更文第27天】 在现代互联网应用中,数据库作为核心的数据存储层,其稳定性和可靠性尤为重要。阿里云的 PolarDB 作为一款云原生的关系型数据库服务,提供了高可用、高性能和自动化的特性,适用于各种规模的应用。本文将详细介绍 PolarDB 的高可用架构设计,并探讨其实现数据安全性和业务连续性的关键技术。
129 0
|
2月前
|
数据库
|
4月前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
5月前
|
运维 监控 关系型数据库
【一文搞懂PGSQL】7. PostgreSQL + repmgr + witness 高可用架构
该文档介绍了如何构建基于PostgreSQL的高可用架构,利用repmgr进行集群管理和故障转移,并引入witness节点增强网络故障检测能力。repmgr是一款轻量级的开源工具,支持一键部署、自动故障转移及分布式节点管理。文档详细描述了环境搭建步骤,包括配置postgresql参数、安装与配置repmgr、注册集群节点以及配置witness节点等。此外,还提供了故障手动与自动切换的方法及常用命令,确保集群稳定运行。
|
6月前
|
关系型数据库 分布式数据库 数据库
PolarDB产品使用问题之如何进行PostgreSQL(简称PG)的全量和增量备份管理
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
6月前
|
存储 关系型数据库 分布式数据库
PolarDB产品使用问题之如何查看PolarDB for PostgreSQL的备份信息
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
6月前
|
SQL 存储 关系型数据库
关系型数据库PostgreSQL学习
【7月更文挑战第4天】
463 2
|
关系型数据库 分布式数据库 PolarDB
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
380 0
|
存储 缓存 关系型数据库
|
存储 SQL 并行计算
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(中)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
436 0

相关产品

  • 云原生数据库 PolarDB