[PolarDB实操课] 01.PolarDB分布式版架构介绍
内容介绍:
一、PolarDB分布式版
二、数据灾备中心PolarDB-X典型的业务场景
三、分布式焦点问题
四、PolarDB分布式版技术架构
五、PolarDB-X分布式版-CN组件和DN组件
六、PolarDB-X分布式版-CDC组件
七、PolarDB-X分布式版-Columnar组件
本次分享的主题是PolarDB分布式版架构,由PolarDB开源架构师王江颖分享。
来源:课程《PolarDB实操课》
课程链接:https://developer.aliyun.com/live/253957
更多学习内容可跳转阿里云培训中心https://edu.aliyun.com/
一、PolarDB分布式版
PolarDB分布式版简称PolarDB-X,是由阿里巴巴自主研发的云原生分布式数据库,基于一款Share-Nothing架构理念,Share-Nothing是分布式的计算架构,它的核心原则是系统中的每一个节点都有自己独立的硬件资源和状态,包括CPU,内存,磁盘,存储等都是独立的。由于节点之间没有共享的资源,单一节点的故障也不会直接影响到其他节点,所以整个系统具有较高的可用性和容错性。
PolarDB-X同时还具备HTAP的能力,即混合事务分析处理的能力,它支持行列混存,基于内存加速在线分析查询,同时还支持在线事务处理与在线分析处理(HTAP)的融合型分布式数据库产品,具备金融级数据高可用、分布式一致性以及极致弹性等能力。
PolarDB-X经历了三个阶段的演进:
2009年在阿里巴巴内部发起的IOE运动中,为了解决传统单机数据库扩展性不足的问题,采用了基于杀点技术和开源MYSQL的分布式架构进行了改造。杀点技术就是分片技术,其核心思想是将一个大型的数据库分割成多个较小的、更加容易管理和可扩展的片。因为是基于开源的MYSQL去改造的,所以PolarDB-X是高度兼容MYSQL生态的。
从2014年开始,走上了云数据库发展的道路,推出了DRDS+RDS的分布式云数据库服务。这一代产品采用了Share-Nothing的架构,主要是为了解决存储扩展性的问题。
从2018年开始,把云架构和分布式技术进行了融合,推出了新一代的云原生分布式数据库。这一代产品是基于存储和计算分离的架构设计的,实现了资源的解耦和独立的弹性。
二、PolarDB-X典型的业务场景
PolarDB-X典型的业务场景可以分为五种。
1. 实时交易的场景。
尤其是一些数据量比较大、并发高的场景,非常适合用分布式数据库来处理。
2. 海量数据集中存储场景。
这类场景有很多高并发,而且单表往往很大,需要进行单表的拆分。
3. 国产化的分布式的改造场景
主要是满足银行运营商等行业的国产化诉求。
4. 从自建数据库迁移上云场景
主要是为了减少运维管理的复杂度。
5. 面向有分布式改造诉求的场景。
如果未来的业务数据量比较大就需要对系统进行分布式的改造。
三、分布式焦点问题
1. 业务的连续性
作为分布式数据库要保证业务的连续性,通常会讲到RPO=0能力,它是业务系统所能够容忍的数据的丢失量。RPO=0指系统恢复时数据丢失量为零,这是衡量系统容灾能力的一个很重要的指标。分布式数据库如何能够提供和单机数据库一致的RPO=0的能力,还要保证多副本的数据分布式的一致性和提供异地容灾能力等。
2. 一致性保障
分布式数据库的事物是跨节点处理的。如何保证事物的一致性?如何应对复杂的查询场景?如何保证数据的同步还有备份,恢复中上下游数据的一致性,这些都是我们要思考的。
3. 透明分布式的能力
透明分布式的能力主要指的是用户透明。Share-Nothing的分布式架构虽然能够保证容灾的能力,但是它也带来了系统的复杂性。因为需要管理数据分布、复载均衡、故障检测和恢复等方面的问题。这些问题都很复杂。那么如何减少用户使用分布式数据库的复杂性,来降低用户的学习成本?为用户提供无限接近单机的使用体验,也是在设计时需要考虑的问题。
四、PolarDB分布式版技术架构
PolarDB-X的架构分为四个核心部分。从上至下分为GMS、CN、DN还有CDC。GS指的是原数据服务,主要是用于维护数据库的原数据信息以及账号权限等安全信息。所谓原数据metal data指的是关于数据的数据,它提供了有关数据库和数据的一些详细信息,常见的表结构,数据类型等都属于原数据。
GMS还提供全局授时的服务叫TSO, 它的全称叫time stamp oracle,指的是时间戳的概念,它主要是用于分布式系统中用来生成全局一致而且唯一递增的时间戳。
在分布式数据库系统中,全局的时间戳对于维护事物的顺序,还有数据的一致性以及整个系统的协调都是非常重要的。
CN是离应用最近的部分,它接收来自应用的SQL,主要负责SQL的解析、优化还有执行。
通过SQL引擎在系统中实现数据的数据或者消息传输的路径的选择,也就是分布式的路由。他还去负责处理分布式事务的2PC协调、维护全局的索引。2PC也叫two face commit, 是一个两阶段提交协议,它是实现分布式事务的广泛使用的一个协议。它指的是将事物提交的过程分为两个阶段,准备阶段和提交阶段。
在准备阶段,所有的参与节点都会去决定是否可以提交一个事物。
在提交阶段基于准备阶段的决定,所有的节点一起,要么提交这个事务,要么去回滚事物。分布式系统就是通过2PC来保证事物的原子性和一致性。
DN存储节点也叫数据节点,主要是用来提供数据存储引擎的。比如MYSQL里面的inno,还有一些自研的存储引擎,比如PolarDB-X的X-engine引擎,主要是解决数据的一致性和持久化问题。DN节点里面很重要的一个概念叫Paxos协议。它基于Paxos协议来实现高可靠的存储。Paxos协议是分布式系统中解决一致性问题的一个很重要的协议。它基于多数派原则来实现的。
多数派原则指的是在这个系统中需要超过一半的节点去同意某个提案,这个提案才可以被系统所接受。通过这种Paxos协议、多数派原则,就能够确保即便在面临节点故障的情况下,也能够提供高可用性和一致性。
DN节点还负责处理分布式MVCC事物的可见性判断。MVCC的英文叫Multi-Version Concurrency Control多版本并发控制,这是一种并发控制的方法。通过为数据的每次更改创建不同的版本来避免锁的使用,从而允许多个读写操作并发进行。就是会创建多个版本。可见性判断指的是在MVCC中要决定哪一个数据版本对于特定的事物是可见的,即判断哪个版本对事物是可见的事物,在读取数据的时,要看的是哪个版本,因为有很多版本需要看到数据。取决于事物的开始时间和数据版本的创建时间,通常一个事物只能看到开始之前已经提交的更改,只能看到较早的数据版本,通过可见性判断功能来控制。
存储节点中有一个叫Columnar的组件,它叫做列存节点。在数据库中列存节点一般比行存高。列存非常适合解决一些分期查询的场景。行存更适合解决OTP这类交易类场景,即有频繁插入更新或者删除操作的交易类场景。PolarDB是同时支持行存和列存的,他支持跟列不同表的使用模式,灵活的选择行存或列存的存储方式。是实现其type能力的一个关键功能。
CDC节点指的是日志节点,它是提供binlog相关支持功能的节点。Binlog指的是二进制日志,是MYSQL数据库中很重要的概念,是一种提供数据更改记录的日志文件。这个日志文件可以记录数据库当中执行的一些操作,对数据库的复制还有恢复都是非常关键的。
CDC节点提供MYSQL主从复制的交互的功能。主从复制指有一台数据库来充当主数据库,另外一台或者是多台数据库来充当从数据库。主数据库主要负责写入操作,从数据库主要负责读取还有备份操作。主数据库当中的数据会自动复制到从数据库当中来实现数据副本,提高数据库系统的读取性能。它还可以提供数据备份以及进行故障恢复操作。在MYSQL数据库中,主从复制主要是基于binlog来实现。
五、PolarDB-X分布式版-CN组件和DN组件
CN/CN组件有一个MYSQL的协议层,这个协议层是高度兼容MYSQL语法的。
在CN节点包括执行器、优化器等,这些负责SQL的解析、优化还有执行。SQL解析层可以实现精准的算子下推。算子下推是数据库查询优化里面一个很重要的概念,指的是将查询处理的某些部分,如过滤、聚合、连接等操作,使这些操作尽可能的靠近数据源执行。这样可以减少数据的传输,增加查询的效率,最终提高数据库的整体的性能。CN节点还具有Serverless弹性扩展能力、HTAP并行计算的能力,可以应对混合负载场景。
DN节点是基于阿里云自研的阿里SQL内核来设计的,它有一个稳定可靠的特点。在DN节点中,数据节点有逻辑节点和物理节点的概念。一个逻辑节点包含三个物理节点。三个物理节点之间怎么来保证数据的一致性?它通过Paxos协议来保证一致性,另外MVCC功能主要满足金融级的一致性要求。
CN和DN节点有一个RPC协议。这是一种通信私有通讯协议。RPC全称叫remote procedure call,它是一种允许程序调用另一台计算机上的程序或者服务的通信协议。RPC协议抽象了网络通信的细节,使得开发者能够像调用本地函数一样调用远程的函数或方法。开发者不需要了解底层的网络技术,就能够实现通信。
六、PolarDB-X分布式版-CDC组件
CDC组件主要是用来处理全局binlog。首先extractor解析DN的binlog,解析完之后会进行一些排序操作。merger负责分布式事务的日志DDL排序、重组等,经过排序的binlog做一个全局的合并,这个排序会输出到DP去对接下游的一些链,比如DTS等,会去负责全局日志的落盘,提供标准的binlog服务。通过这样的过程会实现binlog的体验和单机的MYSQL的体验是一致的。
在分布式数据库系统中,实现跨多个节点或者是实例的操作是很困难的事情。因为分布式系统中的各个节点,可能会因为网络延迟等原因,很难维护一致的全局时间的序列。为了解决这个问题,PolarDB-X通过TraceID和TSO信息对binlog进行全局的排序,来实现一致。可以把TraceID理解为一个唯一标识符ID,ID就是用来标识身份的,把它理解为唯一的标识符,他可以跟踪分布式系统中的单个操作或者是请求,来告诉我们哪些操作是同属于一个事物或者是请求来进行标记。
PolarDB-X是兼容MYSQL生态的一个分布式数据库。它通过集群内的CDC组件去提供和MYSQLbinlog格式兼容的变更日志。它也能够兼容分布式的DDL,并且他可以屏蔽内部的分片、迁移、广播表、索引等数据的干扰,提供和单机的MYSQL数据库一致的使用体验。
七、PolarDB-X分布式版-Columnar组件
Columnar组件是列存节点。它主要是为了应对数据库数据爆炸式增长的挑战。基于对象存储设计的列存的索引功能,它支持将行存的数据实时的同步到列存的存储上,满足行列混存的功能,实现type能力。
PolarDB-X的列存索引是采用读写分离的组件来进行设计的。列存对接的是CN节点的MPP的并行计算。Columnar节点主要负责列存的写入,他会去对接CN节点。
CN节点主要负责列存的读取。列存和行存有不同的应用场景。列存更适合AP场景。行存更适合TP的交易的场景。PolarDB分布式提供了面向行列混合场景的代价优化器的功能。这个优化器可以去根据代价智能识别路由,智能的把TP的查询转发给行存的查询的链路,把AP类的查询转发给列存的查询链路,让他们各自分工,从而提高查询分析的性能。