【视频】PolarDB-云原生关系型数据库的解析与实践|学习笔记(二)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 快速学习【视频】PolarDB-云原生关系型数据库的解析与实践

开发者学堂课程【关系型数据库 ACP 认证课程【视频】-RDS-云关系行数据库的解析与实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/927/detail/14620


【视频】PolarDB-云原生关系型数据库的解析与实践


(1)海量数据,快速查询

● PolarDB 采用计算和存储分离架构,支持数据库服务器的 CPU 、内存能够快速扩容,最快可增加15个只读节点,支持并行查询、读写分离等功能,使查询耗时指数级下降,解决计算量较大的查询、多表连接查询、日常报表查询等轻分析类业务需求。

● 并行查询: PolarDB MysQL 8.0重磅推出并行查询框架,在存储层将数据分片到不同的线程上,多个线程并行计算,将结果流水线汇总到总线程,最后总线程做些简单归并返回给用户,提高查询效率。

● 读写分离:最多可增加15个只读节点,通过控制台打开事务拆分功能,可把事务中的部分查询路由到只读节点,提升查询速度。

● 资源隔离: PolarDB MysQL 引擎可以设置多个连接地址 Endpoint 连到不同的节点上,提供给不同的业务使用,一般用于隔离 OLAP 负载,避免对在线业务造成影响。比如在正常情况下有一个主节点以及很多只读节点,若想让一些只读节点服务 AP 的请求,就可以将其绑定到 Endpoint 上,相当于把 AP 的请求隔离到这几个只读节点上,其查询无论耗费多少 CPU 资源或内存,都不会对 RW 节点即主节点造成影响。

 

一、PolarDB 的架构原理

1、 PolarDB 架构解析

(1)PolarDB 架构

image.png

读写分离:如图, ECS 部署的即为应用的机器,相当于 Cache 以及 Proxy 层,代理做的是读写分离。 PolarDB 的上层暴露给客户的是一个 Proxy 层, Proxy 层可以做负载均衡以及读写分离,相当于充分运用读写节点、只读节点这些计算的实例来提升访问效率。

计算与存储分离:第三层为 DB 的计算层,因为 PolarDB 是存储计算分离,所以 DB 分为计算层和存储层,第三层为计算层,计算层有很多实例,一个实例为读写节点,剩下的N个实例,最多支持15个只读节点。

高速链路互联:RDNA 是一个高速互联网络,计算层和存储层就是通过 RDNA 这样的网络去连接。其效果是通过 RDNA 协议去节约计算层、计算节点上的 CPU ,因为 RDNA 的吞吐比较高,所以 CPU 瓶颈可以被节约掉。

一写多读:在计算层,包含一个主节点和最多15个只读节点,这是 PolarDB 一写多读主流的架构。

共享分布式存储:通过 Proxy 进来的流量读写请求全部由主节点来下发,读请求均由只读节点下发, PolarDB 的计算节点包括主节点和只读节点均无状态,其数据文件等存在底层分布式文件系统中,各个计算节点只需要同步原数据信息,极大的降低了主节点和只读节点的复制延迟,相比于 Binlog 来说,每个计算节点都存储于一份数据之中,这是 RDS 常用的方案, PolarDB 是各个计算节点共享的,降低了用户的存储成本;另外其底层存储容量可以在线平滑扩展,因为它是分布式的独立服务,不会受到单个数据库服务或者单个物理机器的容量限制,这样才可以应对上百的 TB 级别的数据规模。

数据多版本 Parallel-Raft 协议:底层的分布式文件系统,其存储节点采用三副本形式,确保数据的可靠性。 Parallel-Raft 协议是 PolarDB 自研的基于 Raft 协议做的变种,相比于普通的 Raft ,整个协议是类似的,但他提供了写入并发回放的能力,可以基于文件快的维度去做回放。

(2)PolarDB 的可用性管理

image.pngPolarDB 同时支持多节点架构和多可用区架构两种架构。多节点上面可以挂多个主节点、多个只读节点、多个计算层,挂在同一份分布式存储上面,当主节点出现故障的时候,你的厨房地址会自动的选择一个主节点升级为新的主节点,这个整个流程都是 PolarDB 管控内部来完成,对于用户来说可能只是感受到了大概20秒或者30秒的一些故障,只要有一个重试的机制,重连上来就会发现整个服务又恢复可用了。还有一个情况,因为可能会有一个跨空区的需求,假设整个可用区都发生故障, PolarDB 支持多可用区架构部署,如果主可用区所有的整个可用区故障,相当于所有的主节点、折节点都是不可用的,可以去切换 Standby 所在的被可用区来实现一个跨 AC 的容灾。

(3)GDN 全球数据库网络

image.png可以去在基于 PolarDB 去做一个节点级别的容灾,以及可用区级别的容灾,现在提出一个新的概念,如果整个集群都挂了,就包括主可用区,里面的读写节点、只读节点,以及被可能区的 Standby 有可能也故障了,由此引入了 GDN 的概念,如果在极端的环境中的话,整个集群都失效了,全球数据库的其他集群是可以继续提供服务的,可以实现全球的容载。

GDN 就是指全球数据库网络,它是由分布在全球不同地域的多个 PolarDB 数据库集群组成的一张网络,网络中所有集群的数据是可以保持同步的,只有一个集群式集群有读写权限,从集群是 GDN 中从主集群同步数据的一个从属集群,这个集群只有两类服务,一类是读服务,一类是写转发服务,特点是如果业务有出海的需求,有海外部署,那么从集群就可以提供出海业务的一个就近读。比如有欧洲的业务,有美国的业务,有新加坡的业务,新加坡的那些业务的对应的用户就可以去从新加坡的从集群去直接去 local 的读取,但是另外一方面,因为当前的基金还是一个单写的架构,所以如果新加坡的用户有写请求,是路由到主节点去写。

这里有一个优势,就是整个 PolarDB 的 GDN 是通过 Proxy 管理的,相当于用户不用去担心 client  是写向新加坡集群还是向美国集群,因为它的内核会自动去判断当前的机电集群是从集群还是主集群,如果是主集群就会直接写入,如果是从集群的话,内核就会直接做转发,是不需要用户去考虑的。

另外一方面,主集群是可以随着业务做跨可用区迁移,甚至是跨国迁移,比如起初核心的业务,或者 ECS 在上海,如果上海故障了或者要签业务,要迁到新加坡,这个时候 DB 也可以通过 GDN 做一个整体的主从集群的一个互相切换,这相当于做跨国的迁移。

(4)PolarDB 的访问方式

如何去访问数据库,特别是一写多读这种架构下怎样充分的利用扩展性。

访问点是数据库的一个访问入口,也可以称为接入点,也就是 Endpoint ,每个集群提供了多个访问点,每个访问点可以连接一个多或多个实际的物理节点。

默认如果新购买一个 point 会给两个访问点,分别叫主地址、集群地址,主地址就是主节点的访问点,当发生故障切换之后,系统就会把访问点自动指向新的这个主节点,在集群地址上面是自动的,可以去整合集群下的多个节点,对外提供一个统一的读写地址,这个集群地址是通过那个数据库代理,就是 Proxy 去访问,具有自动弹性、读写分离、负载均衡以及一致性、协调这些能力。如果购买了新的折扣节点,它就会自动加到这个集群地址中。

另外 PolarDB 还可以根据业务的需求去创建最多三个自定义的集群地址,在自定义的集群地址上可以指定任任意几个节点,即可以选这个所有节点中的一个子集去定义那个集群地址。

 image.png

(5)数据库代理

数据库代理: PolarDB 数据库代理是位于数据库和应用程序之间的网络代理服务,用于代理应用程序访问数据库时的所有请求,具有高可用、高性能、可运维、简单易用等特点,支持自动读写分离、负载均衡、一致性级别、连接池等高级功能。

您可以连接 PolarDB 集群地址使用数据库代理的各项功能。它负责把请求路由到各个数据库,这样就可以去根据请求的类型,把写请求转发到主库,这是 Proceed 内部做好的, Proxy 除了读写分离、自动负载均衡,它还具有连接池的功能,连接池是一个非常常见的需求,可以解决连接数过多或者短连接业务频繁建立新连接导致实力负债过高的问题。

Proceed 提供的另外一个关键的功能是一致性。一致性是访问点的一个属性,也就是 Endpoint ,它主要是指用户在主节点和只读节点上访问数据的一致性。有三个选项,分别是最终一致性、会话一致性和强一致性,默认的是最终一致性的配置,这个在控制台以及新创建的集群地址都是可以自动去配的。

image.png(6)PolarDB 多主架构

①基础功能

支持不同数据库在不同计算节点并发写入

目前最多支持32个节点同时写入

支持数据库跨节点动态调度,秒级切换

计算节点故障秒级完成切换

②应用场景

SaaS 应用:满足高并发性能需求,实现租户间负载均衡

游戏:更好的性能和扩展能力,支持世界服架构

电商:满足高并发读写需求

image.pngPolarDB 最常用的主推的模式是一写多读,多种架构实现了一个从一写多读到多写多读架构的升级,它主要面向的就是多租户,像游戏、电商等高并发读写的应用场景。

它整体架构的上面也有一个代理层,它可以把不同数据库请求转发到不同的主实例上,不同的主实例可以同时提供读写服务,底层还是用同一个分布式文件系统,因为它每个数据库数据只有一份并且共享存储,这样就可以保证不同节点上能访问到一致的数据,目前多主架构最多是支持32个节点的同时泄露,和之前一写多读的架构相比,它支持的是数据库跨节点的动态调度秒级切换,如图,如果一个DB从写入点1切换到写入点2是不需要做任何的搬迁数据,因为所有数据都在同一份共享存储上。

2、PolarDB 核心技术解析

(1)物理复制介绍

物理复制是 PolarDB 自主研发的一个技术,它是通过 InnoDB 里面产生的 Redo log 进行数据同步。

长期的情况下,一般都是 Bin log 的同步,但物理复制适用于 Redo log 的同步, Redo log 可以把主节点的数据列修改,产生的这个日志同步到从节点之后,从节点去解析回放,然后修改应用到自己对应的数据页上,这样就实现了配置级别的数据同步。

从节点有两种,一种是 RO ,还有一种是 Standby 节点,这两个节点都可以通过一部异部去回放,然后把 Apply 到对应的 Page 上面,这样读到的数据是可以对齐的,让用户可以在只读节点上面去访问到最新的一个写入数据。

(2)物理复制和逻辑复制的对比:

原生 Binlog 实现的数据同步机制是通过记录用户的一个写事务以及具体的各种SQL的信息,然后通过网络同步到备份的只读节点,只读节点收到这个 Binlog 后,需要对这些事物进行回放或者 SQL ,重复的去执行,不管 Binlog 是 Statement 类型还是 Ro 类,最终执行完成以后才能达到数据同步的目的。

逻辑复制对大数以及 GDR 这个语句会造成复制延迟,这是不可控的,另外一方面是其失误回放速度,因为本身SQL是比较复杂的,同步时延也相对较大,回放就有可能会变慢,无法在备份节点上去提供实时一致的访问,尤其是很多业务对一致性以及备份实言都非常敏感,这就相当于 RO 节点就只能做一个冷备,并没有意义,浪费了资源,像 PolarDB 的物理复制,其本质是对底层的文件快的配置维度进行更新和回访,他具备更高的性能,并且能够保证数据状态实时同步更新,同步实言就会相对低一点,相当于是可以真正实现主备集群的访问一致性,也就是说在主节点上,最新的数据斜路在几个毫秒之后,就能在指定节点上访问到。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
3月前
|
关系型数据库 MySQL 分布式数据库
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶,邀请好友完成更有机会获得​小米Watch S3、小米体重称​等诸多好礼!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
|
4天前
|
关系型数据库 分布式数据库 数据库
1月17日|阿里云云谷园区,PolarDB V2.0技术沙龙,畅聊国产数据库
为了助力国产化项目顺利推进,阿里云邀请企业开发者和数据库负责人到云谷园区,与PolarDB V2.0技术专家面对面交流。扫描海报二维码报名,我们将根据信息为您申请入园。欢迎参与,共同探讨PolarDB的最新技术和应用!
|
17天前
|
NoSQL 关系型数据库 分布式数据库
基于PolarDB的图分析:通过DTS将其它数据库的数据表同步到PolarDB的图
本文介绍了使用DTS任务将数据从MySQL等数据源实时同步到PolarDB-PG的图数据库中的步骤.
|
20天前
|
SQL 关系型数据库 分布式数据库
夺冠在即 | PolarDB数据库创新设计赛(天池杯)决赛答辩通知
2024年全国大学生计算机系统能力大赛PolarDB数据库创新设计赛(天池杯)于8月21日启动,吸引了200多所高校近千支队伍参赛。经过激烈角逐,60支队伍晋级决赛第一阶段,36支队伍脱颖而出进入现场答辩,将于12月29日在武汉大学争夺最终奖项。决赛要求选手基于PolarDB-PG开源代码部署集群并优化TPCH查询性能。完赛率超90%,成绩表现出明显梯度,前20名均在500秒内完成。评委来自学术界和工业界,确保评选公正。预祝选手们取得优异成绩!
|
1月前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB 分布式版 V2.0,安全可靠的集中分布式一体化数据库管理软件
阿里云PolarDB数据库管理软件(分布式版)V2.0 ,安全可靠的集中分布式一体化数据库管理软件。
|
17天前
|
NoSQL 关系型数据库 分布式数据库
PolarDB图数据库快速入门
图数据库(Graph Database)专门存储图数据,适合处理社交网络、知识图谱等复杂关系。它使用图查询语言(如Cypher、Gremlin)进行操作。PolarDB兼容OpenCypher语法,支持创建、查询、更新和删除图数据,包括模式匹配、过滤、MERGE避免重复、可视化工具等功能,简化了图数据的管理和应用。
|
2月前
|
存储 Cloud Native 块存储
EBS深度解析:云原生时代企业级块存储
企业上云的策略,从 Cloud-Hosting 转向 Serverless 架构。块存储作为企业应用上云的核心存储产品,将通过 Serverless 化来加速新的计算范式全面落地。在本话题中,我们将会介绍阿里云块存储企业级能力的创新,深入解析背后的技术细节,分享对未来趋势的判断。
171 2
|
2月前
|
Kubernetes Cloud Native 云计算
云原生技术深度解析:重塑企业IT架构的未来####
本文深入探讨了云原生技术的核心理念、关键技术组件及其对企业IT架构转型的深远影响。通过剖析Kubernetes、微服务、容器化等核心技术,本文揭示了云原生如何提升应用的灵活性、可扩展性和可维护性,助力企业在数字化转型中保持领先地位。 ####
|
2月前
|
运维 Kubernetes Cloud Native
Kubernetes云原生架构深度解析与实践指南####
本文深入探讨了Kubernetes作为领先的云原生应用编排平台,其设计理念、核心组件及高级特性。通过剖析Kubernetes的工作原理,结合具体案例分析,为读者呈现如何在实际项目中高效部署、管理和扩展容器化应用的策略与技巧。文章还涵盖了服务发现、负载均衡、配置管理、自动化伸缩等关键议题,旨在帮助开发者和运维人员掌握利用Kubernetes构建健壮、可伸缩的云原生生态系统的能力。 ####