PolarDB-云原生关系型数据库的解析与实践 | 学习笔记(二)

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 快速学习 PolarDB-云原生关系型数据库的解析与实践

开发者学堂课程【关系型数据库ACP认证课程:快速学习 PolarDB-云原生关系型数据库的解析与实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/927/detail/14620


PolarDB-云原生关系型数据库的解析与实践

内容介绍:

一、 PolarDB 的初步介绍

二、 PolarDB 的架构原理

PolarDB 的使用及相关操作


二、PolarDB 的架构原理

1、 PolarDB 架构解析


(1)PolarDB 架构


image.png

读写分离:如图, ECS 部署的即为应用的机器,相当于 Cache 以及 Proxy 层,代理做的是读写分离。 PolarDB 的上层暴露给客户的是一个 Proxy 层, Proxy 层可以做负载均衡以及读写分离,相当于充分运用读写节点、只读节点这些计算的实例来提升访问效率。

计算与存储分离:第三层为 DB 的计算层,因为 PolarDB 是存储计算分离,所以 DB 分为计算层和存储层,第三层为计算层,计算层有很多实例,一个实例为读写节点,剩下的N个实例,最多支持15个只读节点。

高速链路互联:RDNA 是一个高速互联网络,计算层和存储层就是通过 RDNA 这样的网络去连接。其效果是通过 RDNA 协议去节约计算层、计算节点上的 CPU ,因为 RDNA 的吞吐比较高,所以 CPU 瓶颈可以被节约掉。

一写多读:在计算层,包含一个主节点和最多15个只读节点,这是 PolarDB 一写多读主流的架构。

共享分布式存储:通过 Proxy 进来的流量读写请求全部由主节点来下发,读请求均由只读节点下发, PolarDB 的计算节点包括主节点和只读节点均无状态,其数据文件等存在底层分布式文件系统中,各个计算节点只需要同步原数据信息,极大的降低了主节点和只读节点的复制延迟,相比于 Binlog 来说,每个计算节点都存储于一份数据之中,这是 RDS 常用的方案, PolarDB 是各个计算节点共享的,降低了用户的存储成本;另外其底层存储容量可以在线平滑扩展,因为它是分布式的独立服务,不会受到单个数据库服务或者单个物理机器的容量限制,这样才可以应对上百的 TB 级别的数据规模。

数据多版本 Parallel-Raft 协议:底层的分布式文件系统,其存储节点采用三副本形式,确保数据的可靠性。 Parallel-Raft 协议是 PolarDB 自研的基于 Raft 协议做的变种,相比于普通的 Raft ,整个协议是类似的,但他提供了写入并发回放的能力,可以基于文件快的维度去做回放。

 

(2)PolarDB 的可用性管理

image.png

PolarDB 同时支持多节点架构和多可用区架构两种架构。多节点上面可以挂多个主节点、多个只读节点、多个计算层,挂在同一份分布式存储上面,当主节点出现故障的时候,你的厨房地址会自动的选择一个主节点升级为新的主节点,这个整个流程都是 PolarDB 管控内部来完成,对于用户来说可能只是感受到了大概20秒或者30秒的一些故障,只要有一个重试的机制,重连上来就会发现整个服务又恢复可用了。还有一个情况,因为可能会有一个跨空区的需求,假设整个可用区都发生故障, PolarDB 支持多可用区架构部署,如果主可用区所有的整个可用区故障,相当于所有的主节点、折节点都是不可用的,可以去切换 Standby 所在的被可用区来实现一个跨 AC 的容灾。

 

(3)GDN 全球数据库网络

image.png

可以去在基于 PolarDB 去做一个节点级别的容灾,以及可用区级别的容灾,现在提出一个新的概念,如果整个集群都挂了,就包括主可用区,里面的读写节点、只读节点,以及被可能区的 Standby 有可能也故障了,由此引入了 GDN 的概念,如果在极端的环境中的话,整个集群都失效全球数据库的其他集群是可以继续提供服务的,可以实现全球的容载 

GDN 就是指全球数据库网络,它是由分布在全球不同地域的多个 PolarDB 数据库集群组成的一张网络网络中所有集群的数据是可以保持同步的,只有一个集群式集群有读写权限,从集群是 GDN 中从主集群同步数据的一个从属集群,这个集群只有两类服务,一类是读服务,一类是写转发服务特点是如果业务有出海的需求,有海外部署,那么从集群就可以提供出海业务的一个就近读。比如有欧洲的业务,有美国的业务,有新加坡的业务,新加坡的那些业务的对应的用户就可以去从新加坡的从集群去直接去 local 的读取,但是另外一方面,因为当前基金还是一个单写的架构,所以如果新加坡的用户有写请求是路由到主节点去写

这里有一个优势,就是整个 PolarDB GDN 是通过 Proxy 管理的,相当于用户不用去担心 client  是写向新加坡集群还是向美国集群,因为它的内核会自动去判断当前的机电集群是从集群还是主群,如果是主群就会直接写入,如果是从集群的话,内核就会直接做转发,是不需要用户去考虑的。

另外一方面,主群是可以随着业务做跨可用区迁移,甚至跨国迁移,比如起初核心的业务,或者 ECS 在上海,如果上海故障了或者要签业务,迁到新加坡,这个时候 DB 也可以通过 GDN 做一个整体的主从集群的一个互相切换,这相当于做跨国的迁移。

 

(4)PolarDB 的访问方式

image.png

如何去访问数据库,特别是一写多读这种架构下怎充分的利用扩展性。

访问点是数据库的一个访问入口,也可以称为接入点,就是 Endpoint ,每个集群提供了多个访问点,每个访问点可以连接一个多或多个实际的物理节点。

默认如果新购买一个 point 会给两个访问点,分别叫主地址、集群地址,主地址就是主节点的访问点,当发生故障切换之后,系统就会把访问点自动指向新的这个主节点,在集群地址上面是自动的,可以去整合集群下的多个节点,对外提供一个统一的读写地址,这个集群地址是通过那个数据库代理,就是 Proxy 去访问,具有自动弹性、读写分离、负载均衡以及一致性、协调这些能力。如果购了新的折扣节点,它就会自动加到这个集群地址中。

另外 PolarDB 还可以根据业务的需求去创建最多三个自定义的集群地址,在自定义的集群地址上可以指定任任意几个节点,可以选这个所有节点中的一个子集去定义那个集群地址。

 

(5)数据库代理

数据库代理: PolarDB 数据库代理是位于数据库和应用程序之间的网络代理服务,用于代理应用程序访问数据库时的所有请求,具有高可用、高性能、可运维、简单易用等特点,支持自动读写分离、负载均衡、一致性级别、连接池等高级功能。

您可以连接 PolarDB 集群地址使用数据库代理的各项功能。它负责把请求路由到各个数据库,这样就可以去根据请求的类型,把写请求转发到主库,这是 Proceed 内部做好的, Proxy 除了读写分离、自动负载均衡,它还具有连接池的功能,连接池是一个非常常见的需求,可以解决连接数过多或者短连接业务频繁建立新连接导致实力负债过高的问题。

Proceed 提供的另外一个关键的功能是一致性。一致性是访问点的一个属性,也就是 Endpoint ,它主要是指用户在主节点和只读节点上访问数据的一致性。有三个选项,分别是最终一致性、会话一致性和强一致性,默认的是最终一致性的配置,这个在控制台以及新创建的集群地址都是可以自动去配的。

image.png

(6)PolarDB 多主架构

①基础功能

支持不同数据库在不同计算节点并发写入

目前最多支持32个节点同时写入

支持数据库跨节点动态调度,秒级切换

计算节点故障秒级完成切换

②应用场景

SaaS 应用:满足高并发性能需求,实现租户间负载均衡

游戏:更好的性能和扩展能力,支持世界服架构

电商:满足高并发读写需求

image.png

PolarDB 最常用的主推的模式是一写多读,多种架构实现了一个从一写多读到多写多读架构的升级,它主要面向的就是多租户,像游戏、电商等高并发读写的应用场景。

它整体架构的上面也有一个代理层,它可以把不同数据库请求转发到不同的主实例上,不同的主实例可以同时提供读写服务,底层还是用同一个分布式文件系统,因为它每个数据库数据只有一份并且共享存储,这样就可以保证不同节点上能访问到一致的数据,目前多主架构最多是支持32个节点的同时泄露,和之前一写多读的架构相比,它支持的是数据库跨节点的动态调度秒级切换,如图,如果一个DB从写入点1切换到写入点2是不需要做任何的搬迁数据,因为所有数据都在同一份共享存储上。

 

2、PolarDB 核心技术解析

(1)物理复制介绍

物理复制是 PolarDB 自主研发的一个技术,它是通过 InnoDB 里面产生的 Redo log 进行数据同步。

长期的情况下,一般都是 Bin log 的同步,但物理复制适用于 Redo log 的同步, Redo log 可以把主节点的数据列修改,产生的这个日志同步到从节点之后,从节点去解析回放,然后修改应用到自己对应的数据页上,这样就实现了配置级别的数据同步。

从节点有两种,一种是 RO ,还有一种是 Standby 节点,这两个节点都可以通过一部异部去回放,然后把 Apply 到对应的 Page 上面,这样读到的数据是可以对齐的,让用户可以在只读节点上面去访问到最新的一个写入数据。

 

(2)物理复制和逻辑复制的对比:

 image.png

 

原生 Binlog 实现的数据同步机制是通过记录用户的一个写事务以及具体的各种SQL的信息,然后通过网络同步到备份的只读节点,只读节点收到这个 Binlog 后,需要对这些事物进行回放或者 SQL ,重复的去执行,不管 Binlog 是 Statement 类型还是 Ro 类,最终执行完成以后才能达到数据同步的目的。

逻辑复制对大数以及 GDR 这个语句会造成复制延迟,这是不可控的,另外一方面是其失误回放速度,因为本身SQL是比较复杂的,同步时延也相对较大,回放就有可能会变慢,无法在备份节点上去提供实时一致的访问,尤其是很多业务对一致性以及备份实言都非常敏感,这就相当于 RO 节点就只能做一个冷备,并没有意义,浪费了资源,像 PolarDB 的物理复制,其本质是对底层的文件快的配置维度进行更新和回访,他具备更高的性能,并且能够保证数据状态实时同步更新,同步实言就会相对低一点,相当于是可以真正实现主备集群的访问一致性,也就是说在主节点上,最新的数据斜路在几个毫秒之后,就能在指定节点上访问到。

 

(3)历史库引擎 X-Engine

 image.png

X-Engine 是阿里自研的一个存储引擎,其目标是面向大规模的海量数据存储,提供一定高并发的一些事务处理能力,同时最重要的是能够降低存储成本。

首先,X-Engine 的热数据层和数据更新都是适用内存存储的,使用了一些内存数据库的技术。第二点是 X-Engine 做了流水线的事务处理机制,可以把整个受处理的几个阶段并行起来通过,然后把整个吞吐提升上去。第三点是 X-Engine 可以把访问频度低的数据逐渐淘汰,或者是合并到一个持久化的存储存储层中,然后结合多层次的存储设备,最好的是 NVM 非易失性内存, SSD 、HDD 一类的普通硬盘进行存储,因为 LSM TREE 是一个分层的架构,特别适合冷热数据区分的一个分层存储,另外对性能影响较大的 Compaction 过程做了很大的优化, Compaction 是 X-Engine 本身的一个流程,需要把这个分层的数据去做 merge ,但我们做的优化可以把整个 X-Engine 的数据存储力度做一个拆分,尽量的去利用数据更新、热点较为集中,然后再合并,合并过程中复用数据以及去精细化的控制, X-Engine 处理的这个形状最核心的其实就是为了减少 Io 和计算代价去缓解合并过程中的写空间放大的问题。另外还使用更细力度的访问控制和缓存机制,去优化读的性能。

 

(4)并行查询

● 有效利用多核 CPU ,大幅提升长査询的查询性能

● 并行查询支持大部分 SELECT 语句

● 适用轻分析类业务、离线分析场景等

 image.png

主要适用于大表查询,多表链接计算量比较大的 SELECT 语句,适合场景:一个场景是轻分析报表类的查询,它 SQL 相对复杂,相比在线 tp 业务也会多耗时间,但通过并行查询可以加速单次查询的效率;另外一个场景是有些只读节点系统资源相对空闲,并行查询可以利用更多的系统资源,如果有充足的 CPU,充足的内存,就可以使用并行查询,把整个资源利用率和查询效率都提升起来。

第三块是在离线混合的场景,主要是隔离的场景对应上图:PolarDB 上不同业务去使用不同的连接地址,底层连接到不同的实际的物理数据库节点上,互相就可以不影响。

例如:可以把某个单节点去开启并行查询执行 OLTP 类型的请求,所有这些请求就只会通过单节点的地址下对应的只读节点去访问,相当于复杂且耗时的 SQL 就不会影响核心业务。

并行查询的关键是利用多核的 CPU 并行处理能力,当查询数量达到一定阈值之后,阈值会提前通过某些算法进行预估,会自动启用并行查询框架,但是可以提前定义好并行查询可以用多少个线程数,对于相关的请求存储层就会把数据分到不同的线程上面,把多个线程做并行计算,最后把结果流水线汇总到总线程,总线程做多个流水线的归并返回给用户可以提高查询效率。有一些分析型场景下测试会有10倍的性能提升。

My SQL 是一个 SQL 请求只会用一个线程,但是 PolarDB 并行查询上相当于在内核里孵化多个线程充分把资源利用起来,这个功能在开源的 My SQL 或者 RDS 是没有办法实现的。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
5月前
|
边缘计算 Cloud Native 数据管理
【阿里云云原生专栏】云原生背景下的AIoT布局:阿里云Link平台解析
【5月更文挑战第29天】阿里云Link平台,作为阿里云在AIoT领域的核心战略,借助云原生技术,为开发者打造一站式物联网服务平台。平台支持多协议设备接入与标准化管理,提供高效数据存储、分析及可视化,集成边缘计算实现低延时智能分析。通过实例代码展示,平台简化设备接入,助力智能家居等领域的创新应用,赋能开发者构建智能生态系统。
164 3
|
14天前
|
存储 关系型数据库 分布式数据库
揭秘PolarDB:中国云原生数据库的超级英雄,如何颠覆传统数据存储?
在数字化时代,数据成为企业的核心资产,而云原生数据库则是推动企业转型的关键。PolarDB凭借其先进的存储计算分离架构,在性能、可靠性和易用性方面脱颖而出,成为国内领先的选择。它支持多种数据库引擎,提供多副本存储机制,并采用按量付费模式,有效降低管理和成本压力,助力企业实现高效、可靠的数字化转型。
30 1
|
2月前
|
运维 Cloud Native JavaScript
云端新纪元:云原生技术深度解析深入理解Node.js事件循环及其在异步编程中的应用
【8月更文挑战第27天】随着云计算技术的飞速发展,云原生已成为推动现代软件开发和运维的关键力量。本文将深入探讨云原生的基本概念、核心价值及其在实际业务中的应用,帮助读者理解云原生如何重塑IT架构,提升企业的创新能力和市场竞争力。通过具体案例分析,我们将揭示云原生技术背后的哲学思想,以及它如何影响企业决策和操作模式。
|
2月前
|
Cloud Native 关系型数据库 分布式数据库
云原生数据库2.0问题之PolarDB利用云计算技术红利如何解决
云原生数据库2.0问题之PolarDB利用云计算技术红利如何解决
|
2月前
|
Cloud Native 关系型数据库 分布式数据库
云原生关系型数据库PolarDB问题之PolarDB相比传统商用数据库的优势如何解决
云原生关系型数据库PolarDB问题之PolarDB相比传统商用数据库的优势如何解决
31 1
|
2月前
|
存储 关系型数据库 分布式数据库
揭秘PolarDB:中国云原生数据库的超级英雄,如何颠覆传统数据存储?
【8月更文挑战第8天】在数字化时代,数据成为企业的核心资产。随着云技术的发展,企业纷纷向云端迁移,选择合适的云原生数据库至关重要。PolarDB凭借卓越性能、高可靠性和易用性在中国市场领先。它采用存储计算分离架构,支持独立扩展,提高处理大规模数据的效率和灵活性。多副本机制确保数据高可用性和持久性,优于单副本存储方案。兼容多种数据库引擎,提供丰富管理工具,降低迁移和维护成本。按量付费模式帮助企业有效控制成本。因此,PolarDB为企业数字化转型提供了强有力的支持。
79 1
|
2月前
|
存储 SQL 运维
“震撼发布!PolarDB-X:云原生分布式数据库巨擘,超高并发、海量存储、复杂查询,一网打尽!错过等哭!”
【8月更文挑战第7天】PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
91 1
|
3月前
|
关系型数据库 测试技术 分布式数据库
PolarDB:中国云原生数据库的领军者
数据库社区“墨天轮”公布了2024年最新一期中国数据库流行度排行榜,阿里云瑶池旗下的自研云原生数据库PolarDB夺冠
|
3月前
|
关系型数据库 分布式数据库 数据库
PolarDB-X源码解析:揭秘分布式事务处理
【7月更文挑战第3天】**PolarDB-X源码解析:揭秘分布式事务处理** PolarDB-X,应对大规模分布式事务挑战,基于2PC协议确保ACID特性。通过预提交和提交阶段保证原子性与一致性,使用一致性快照隔离和乐观锁减少冲突,结合故障恢复机制确保高可用。源码中的事务管理逻辑展现了优化的分布式事务处理流程,为开发者提供了洞察分布式数据库核心技术的窗口。随着开源社区的发展,更多创新实践将促进数据库技术进步。
60 3
|
3月前
|
存储 关系型数据库 分布式数据库
PolarDB,阿里云的云原生分布式数据库,以其存储计算分离架构为核心,解决传统数据库的扩展性问题
【7月更文挑战第3天】PolarDB,阿里云的云原生分布式数据库,以其存储计算分离架构为核心,解决传统数据库的扩展性问题。此架构让存储层专注数据可靠性,计算层专注处理SQL,提升性能并降低运维复杂度。通过RDMA加速通信,多副本确保高可用性。资源可独立扩展,便于成本控制。动态添加计算节点以应对流量高峰,展示了其灵活性。PolarDB的开源促进了数据库技术的持续创新和发展。
267 2
下一篇
无影云桌面