《PolarDB for PostgreSQL源码与应用实战》——PolarDB for PostgreSQL高可用原理(上)

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 《PolarDB for PostgreSQL源码与应用实战》——PolarDB for PostgreSQL高可用原理(上)

高可用集群架构


(一)高可用架构


首先我们先了解一下PolarDB for PG的高可用架构。


image.png


总的来说,PolarDB for PG的高可用架构是把物理复制跟一致性协议相结合,来保证各个节点上的默认值的强一致性。我们看一下原生PG的物理复制方案,也就是流复制方案。


PG原生的流复制支持异步、同步、Quorum Base的机制来同步WAL日志,我们简单分析一下这三种复制方式。首先是同步复制,同步复制的首要目标是保证不丢数据,但其实它会有一些问题,第一个问题是它无法满足可用性的要求,当备库出现故障的时候,或者网络链路上有抖动的时候,这个时候可能会影响主库的可用性,或者主库的RT。其次,它本身并不具备故障自动切换的能力,意味着它并不会去探测主库的可用性,更不用说触发自动的故障切换。另外,旧的主库在故障恢复之后,可能无法重新加入到集群里面来。比如当事务在主库上WAL日志已经持久化成功了,但是在备库上还没有收到日志的时候,如果主库出现故障了,这个时候可能需要通过手动或者通过管控系统来把备库promote成新的主库。


过了一段时间之后,如果旧的主库恢复了,正常的逻辑应该是旧的主库以Standby的方式重新从新的主库上同步WAL日志,但这个时候由于旧的主库在挂掉之前,本身自己会有一些多余的WAL日志,所以这个时候是无法直接从主库上拉取日志,因为拉取日志的时候,会发现自己本身已有的日志在主库上不存在,在流复制里面它是会失败的,所以说这个时候我需要先执行一下pg_rewind。另外,对于不丢数据这一点,其实它也不完全是丢数据,比如说到Master上面,其实是在事务提交的时候,它会等待Standby同步日志,从而保证当Master可见的数据在Standby上肯定是已经同步到了。但是当Master写入了本地日志,然后Standby上还没有写入日志的时候,Master重启了,这时候Master重启之后,它会回放自己所有WAL日志,导致没有被同步到Standby的日志也会被回放。回放之后会出现一个现象,就是Master上已经看到的这些数据,但是对应的WAL日志还没有同步到Standby上,所以严格意义上来说,同步复制也并不能保证不丢数据。


其次我们看一下异步复制,异步复制跟同步复制相比,不需要等待StandbyWAL日志持久化成功。它发送过去行了,根本不关心备库到底有没有持久化成功,然后本地的事务就可以提交了。跟同步复制相比,它可用性比较好,或者说性能比较好,但它的问题是可能会丢数据。


最后一个是Quorum复制,Quorum复制看起来是说如果我们使用了一个多数派的方案之后,是否可以保证不丢数据。但其实在一致性协议里,它除了多数派同步的方案之外,它本身还会有一些选主、日志一致性、集群在线变更等方面的逻辑,但是PG本身Quorum复制里面,它并没有涉及到这些逻辑,所以从本质上来说,它其实并不是一个完整的RPO=0的高可用方案。


那么分析完PG的三种复制方式之后,我们再看一下我们PolarDB for PG的一个高可用方案。

image.png


首先我们通过把一致性协议引入到物理复制里,使用的一致性协议是阿里的X-Paxos协议,X-Paxos协议在阿里内部的业务中,包括阿里云的多个产品中,已经稳定使用了很长一段时间,包括企业版的AliSQL、PolarDB for MySQL以及PolarDB-X等产品,都使用了X-Paxos,具体的协议这里就不详细展开阐述,跟其他的一致性协议基本类似。这块主要讲一下,我们在物理复制里面引入了一致性协议之后的主要能力。


首先整个高可用集群是一个单点写入、多点可读的集群系统,其中Leader节点可以作为单点的写入节点来对外提供读写服务,产生了WAL日志之后,它会向其他节点进行同步,Follower节点是不可写入的,它主要是接受来自于Leader的WAL日志,然后进行回放,最终它可以对外提供一个只读服务。

那么我们高可用系统的特点是什么?


首先,它能保证集群数据的强一致性,也就是RPO=0。当多数派节点的WAL日志写入成功后,我们才认为日志是提交成功了。


另外一点是本身我们支持自动failover的,当发生failover之后,WAL日志会首先跟Leader对齐,然后再次从Leader拉取日志,对齐主要是通过一致性协议来实现,后面会详细讲一下。


第三个特点是刚才提到自动failover,大家知道在我们的高可用集群里面,只要半数以上节点存活的时候,就能保证集群正常对外提供服务。但是当Leader节点出现故障的时候,我们就会自动触发集群的重新选主流程,然后由新主对外提供读写服务,然后Follower节点也会自动从新的Leader节点上同步WAL日志,同时自动跟新的Leader对齐WAL日志。


第四点是在线集群变更,就是可以在线增删节点,包括手动切换,这些操作不影响业务的正常运行,具体也是由一致性协议来保证的,最终集群内的配置肯定会达成一致。即使在集群配置变更过程中发生一些异常,比如主库挂了或其中一个备库挂了这样的情况,最终集群成员状态还是能保证一致性。


除了Leader、Follower节点之外,我们在集群中还有其他两个节点,其中一个是Logger节点。Logger节点不存储数据,它从Leader中拉取到日志之后,它不进行回放,只保留实时日志,日志的目的是三个节点成本与主备基本相当。


另外一个是Learner节点,它本身没有多数派的决策权,但是它能提供只读服务。比如Leader节点在判断多数派节点的时候,其实并不考虑Learner节点,这个节点主要作用是它作为加节点的一个中间状态,比如新加的节点相对于Leader节点延迟比较大的时候,此时如果直接把它当做一个多数派决策的节点加进来,可能会影响Leader的可用性,或者影响Leader的提交延迟,所以我们先把它以Learner的角色加入到集群中,让它先同步数据,当数据基本追上的时候,我们再把它升级成Follower节点。


其次,Learner节点另外一个作用就是我们可以把它作为一个异地的灾备节点,主要特点是当时发生地点切换之后,自动从新的地方同步日志,对于原生的standby,当发生了主库切换之后,它并不会自动地从新主库上同步日志。


在集中部署方面,我们支持跨机房和跨域的部署,包括同机房三副本,同城三机房三副本,以及两地三机房五副本,还有三地三机房五副本的部署。


另外是跨域,刚才提到可以用Learner节点进行灾备,此时并不会影响Leader节点的可用性。另外,我们这个架构里最重要的一点也是比较关键一点,就是我们兼容PG原生的流复制和逻辑复制,能保证下游的消费者不受影响。


《PolarDB for PostgreSQL源码与应用实战》——PolarDB for PostgreSQL高可用原理(中) https://developer.aliyun.com/article/1232683?groupCode=polardbforpg

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
9天前
|
存储 关系型数据库 分布式数据库
揭秘PolarDB:中国云原生数据库的超级英雄,如何颠覆传统数据存储?
在数字化时代,数据成为企业的核心资产,而云原生数据库则是推动企业转型的关键。PolarDB凭借其先进的存储计算分离架构,在性能、可靠性和易用性方面脱颖而出,成为国内领先的选择。它支持多种数据库引擎,提供多副本存储机制,并采用按量付费模式,有效降低管理和成本压力,助力企业实现高效、可靠的数字化转型。
23 1
|
24天前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
29天前
|
运维 监控 关系型数据库
【一文搞懂PGSQL】7. PostgreSQL + repmgr + witness 高可用架构
该文档介绍了如何构建基于PostgreSQL的高可用架构,利用repmgr进行集群管理和故障转移,并引入witness节点增强网络故障检测能力。repmgr是一款轻量级的开源工具,支持一键部署、自动故障转移及分布式节点管理。文档详细描述了环境搭建步骤,包括配置postgresql参数、安装与配置repmgr、注册集群节点以及配置witness节点等。此外,还提供了故障手动与自动切换的方法及常用命令,确保集群稳定运行。
|
1月前
|
Cloud Native 关系型数据库 分布式数据库
云原生数据库2.0问题之PolarDB利用云计算技术红利如何解决
云原生数据库2.0问题之PolarDB利用云计算技术红利如何解决
|
1月前
|
Cloud Native 关系型数据库 分布式数据库
云原生关系型数据库PolarDB问题之PolarDB相比传统商用数据库的优势如何解决
云原生关系型数据库PolarDB问题之PolarDB相比传统商用数据库的优势如何解决
31 1
|
1月前
|
存储 关系型数据库 MySQL
再探PolarDB —— PolarDB MySQL 四大场景下的全方位评测
本文全面评测了阿里云PolarDB MySQL在四大关键场景下的表现:Serverless极致弹性、列存索引(IMCI)、弹性并行查询(ePQ)以及无感秒切高可用。通过官方提供的免费体验资源,我们深入了解了PolarDB MySQL的核心能力和性能。Serverless极致弹性列存索引(IMCI弹性并行查询(ePQ)无感秒切高可用此外,文章还介绍了PolarDB MySQL在数据备份和HTAP(混合事务/分析处理)场景下的优势,包括灵活的备份策略、高效的全量和库表恢复方式,以及通过IMCI支持的HTAP能力。这些特性共同构成了PolarDB MySQL作为一款先进的云数据库服务的强大竞争力。
|
1月前
|
存储 关系型数据库 分布式数据库
揭秘PolarDB:中国云原生数据库的超级英雄,如何颠覆传统数据存储?
【8月更文挑战第8天】在数字化时代,数据成为企业的核心资产。随着云技术的发展,企业纷纷向云端迁移,选择合适的云原生数据库至关重要。PolarDB凭借卓越性能、高可靠性和易用性在中国市场领先。它采用存储计算分离架构,支持独立扩展,提高处理大规模数据的效率和灵活性。多副本机制确保数据高可用性和持久性,优于单副本存储方案。兼容多种数据库引擎,提供丰富管理工具,降低迁移和维护成本。按量付费模式帮助企业有效控制成本。因此,PolarDB为企业数字化转型提供了强有力的支持。
79 1
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB产品使用问题之如何进行PostgreSQL(简称PG)的全量和增量备份管理
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
SQL Cloud Native 关系型数据库
ADBPG(AnalyticDB for PostgreSQL)是阿里云提供的一种云原生的大数据分析型数据库
ADBPG(AnalyticDB for PostgreSQL)是阿里云提供的一种云原生的大数据分析型数据库
1180 1
|
数据可视化 关系型数据库 MySQL
将 PostgreSQL 迁移到 MySQL 数据库
将 PostgreSQL 迁移到 MySQL 数据库
1590 2

相关产品

  • 云原生数据库 PolarDB