开发者学堂课程【PolarDB-X 开源分布式数据库进阶课程:PolarDB-X 分区管理】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1202/detail/18344
PolarDB-X分区管理
内容介绍:
一、polarDB-X 简介
二、PolarDB-X 分区管理
三、demo
一、polarDB-X简介
1. POlarDB-X架构
关于 PolarDB-X 的分析管理能力和 demo,在开始之前,我们先简单的介绍一下PolarDB-X 的整体,他有四个主要的组件,首先是 js 也是原元数据组件,主要提供两个功能,基础能力一个是我们的 To 设施服务,另外一个是我们 dx 系统整体的原信息管理,第二个是我们的主教,也就是我们所说的存储节点,它是基于协议的多存储能提供提供高可靠的存储服务。第三个是我们的 cn 组件,也就是计算节点,它的 PolarDB-X 对用户直接服务入口能提供数据的路由计算以及分布式事物的协调,全局二级索引的维护等相关工作,最后一个是的 cdc 组件,也就是日志节点,他能将分布式数据库各个存储节点的物理 binlog 转化成逻辑 binlog,提供以单机一致的 binlog 体验,让我们和下一个生态能够无缝的对接。
二、PolarDB-X 分区管理
今天的主题就是 PolarDB-X 分区管理,今天的演讲会配合 demo 一起来同步进行,在此之前,我们先去云起实验室,将我们的实验环境搭建好,因为期间有些步骤是比较耗时的,在等待过程中,我们可以来讲我们的 PPT,现在先到我们的云起实验室来搭建一下环境,大家有时间的话也可以到我们云起实验室,然后同步的进行他们也提供了一些完整的指令,那个实验环境已经拉起来,接下来我们的那个实验环境及这个安装好,写起来现在下单以后准备安装这个步骤我会进行的快一些。
现在按照今天实验,给我们创建一个用户看点,这个搭建会比较耗时。先回到我们的PPT衣服再过来看一下。
1.表组
PolarDB-X 管理能力离不开一个概念,它就是表组,标准表组是 PolarDB-X 模式下的逻辑库中的一个对象,任何一个表发挥都会有一个比较标准,已知关联,不管用户创建的时候有没有指定这个标准,一个表组可以进一步可以细分,分为多个分区组,这里有个最基础的概念,同一个分区清楚的就有这些特点,同一分析组的分析在相同的存储决定同一份居住所有分区名称都是一样的,这里有一个例子,就右边有个表,主表一他因为有 m 秒T1到t每个表他都有个分区,两个区分机组p1,他对应的就是T1到 tnm 个表中的,他们第一个分期就要p1分区,所以从这里也可以看到,就是在同一个分期,主动的分期,他都是在相同在同一个存储节点中的数据,那么数据有天然区和,是因为他们都在同一个存储,一般来说就是表主说回答我标准这个概念。
他有这些特点,第一,他在逻辑库是唯一的,然后表组下的分区组的名称跟表的分区的名称是一相对应的,例如p1对应的一定是T1辆 tm 中的p1这个分区,然后可以分开任何的分区,但是整个分区组内的分期度都是落在同一个,不管这个分期是分布在哪里,他们这一组分析都是落在相同的出进点,我们可以利用标注这种天然数据性,我们可以将接同一个表组内一些表做官的关联查询,下推到存储节点去执行消除分布事物,提高我们的执行效率标准,但是大家可能觉得有些东西用起来就是有点门槛,实际上对大多数用户来说,表主是透明的,不需要感知它的存在,就是我们提供了就是自动运维能力,用户什么都不做的时候来创建,在创建表时我们默认了会根据表的分析特点,然后自动的将表具合到一个已存在或者说新的标准中去,只有在业务做性能调优,我们可以通过标准设计将业务的体验优化到性能优化到更加方便。例如将部分业务相关的表组织到一个表组中去,这样的话,在一个表子中的表就可以关联查询,到时候就可以消除分布的事物,因为他们可以去执行,刚才我们把谈的表组,那么我们要知道这个表,它是属于哪个标准以及标准有哪些表,还有必要的分区分布在哪些节点,这些信息我们可以在 demo 上来同步的介绍。
接下来回到云起实验室看看,搭建环境的进度:
创建好样本件,简单看下样本件的定义以及资源的利用情况。接下来就可以创建Polar-DB-X 的集群,这步也需要好几分种才能完成。等待过程回到PPT。
三、demo
1.查看表组信息
第一个就是我们要查看就是标准的信息,利用完查看比较属于哪个标准,如果我们说服这个指令就可以看到,截图中的有一个,还有个注释形式体现的t7105597,提供两个模式,这样子的话,能够很清晰的看到这个表组中有哪有多少个表?因为我我这里举个例子,这里一个710593,他一共有三个分区组,然后有两个表没有,所以没有二级,所以你们二级表。所以也是一种做可以作为一个特殊的表,我们在这里展示出来还有详情模式,这样子的话能看得到这个标准的具体分区信息,跟上面的区别在于这里的info有什么,这个分析主的所有的表都是使用p分区,按照一个整型列来分区,一共有三个分区,每个分区的具体情况是p1,P2,P 3的空。大致情况还有哪几个表,例如这里所示T1跟T2,我现在大致看一下,因为现在环境还没好,这个指令的话就可以看得到我们的目标分布在哪个存储节点,因为我我这实力中所诗人就是T1还有三个分期,p3和p3在存储节点。
2.查看表的分区拓扑信息
第二个存储节点你要p1下0号,查看top信息,分区表中提供了哪一些分析管理能力,我们一个讲,因为 demo 我们所有的变更,只有两个,两个不同力度的变更方式能力都是一样的。
例如我们有标准级别的分区变更,还有表对应的要表级分析变更。
3.分区变更
这个分区合并来说,我们提供了表组级别的分析合并能力和标题列分区能合并能力,他这两个区别是什么?区别是表组的变更的话,就标准内所有的表同步变更。例如,下图中所示表组一,我要将p1跟p合并的话,那么就是表主1 T1到PM这个表所有的p1,P 2都合并到一起,所以里面的所有表示同步变更的,而表级别的变更是更加灵活,变更哪个表,表的分期相关相应的分区进行合并,我们为什么要提供这两种不同的变更能力,首先表组的变更的话,他是同步的,变更前后里面所有的表,他的表组不会因为变更而发生改变,变更前后原来里面的表可以做关联,他们的关联产生可以下出一点,变更后依然可以下回表级别的的话,他提供变更力度更小,更灵活的管理能力但是变更后有可能就是T1变更前,在表一变更后可能变得标准二中。他表主可能会发生变化,发生变化带来的一个问题是原来T1跟T2都在表主一中他们能够做关联查,他们关联查询能够下推,当仅对表T1做变更后,那么他们两个的表组可能就不一样了,然后他们的关联产生就不能下推了,具体就是选择表级别的变更,还是表主级别的变更来选择合适的力度。
现在集群已经建立好了,新开一个终端,切换到创建到的集群3306里面。回到查看密码的页面:
可以通过3306端口链接到集群中。接下来创建测试库和测试表。简单介绍下创建了那些信息,首先创建了一个 part march,它的模式是 moto,然后接下来新创建的表组中叫 test1,那回到密码这一个页面,这时候我们可以通过这个3306端口来沿到我们的那个集训中,看一下应该里面没有什么信息,只有一个系统。
接下来我们创建测试库,还有就是一些设施表。简单介绍一下创建的哪些信息,创建了一个测试部。然后接下来在这个新创建的测试库中创建于创建一个表组,叫他T1,然后我们创建一个表T1,并且显示把它绑定到这个表组一上面去,然后同按相同的方法创建T2,然后将它绑定的小组XT T1然后创建一个T3这个表,不指定任何的标准信息。然后我们手工的实现一个命令的 table,其实一个手工的一个命令将它指定到一个具体的标准,达到的效果是跟我们刚才创建时指定其实是一样的,接下来我们创建t T4,T5,T4一个表,T5是一个list一个表,所以我们 kids 分区也好,分区历史分期我们都创建这些表类型,我们的创建一些啊,我们还创建了两个就是偶尔的不要跟那个眼镜或者跳边,或许我们会用到,然后我们创建完之后,接着创建表结构现象,有个参数叫 partition by range,把它设置为 false,然后我们在搜就是首先T1这个表它是一个分区的比较正常情况下,我们不指定什么,就是如果我们把这个是正常默认。上次是的在不指定的情况下,我们看一下这个小结构,其实是这样子的是他连分期信息,他只是只显示了有多少个分期,有五个分区,然后分期是按照k的分期,但并没有把将具体分析展示出来,我们通过把这个参数设成数,就能看到更详细的信息。
接下来看看库中有哪些标准,搜 table group,一共有四个表组,有一个是手动创建,另外的三个是自动创建,从这里可以从这个经典模式,第一个表主题里面有三个表,然后其他的比较熟的话,773有一个表,然后进去是有两个表,他tg51那两个表按773有一个T7是有一个t,通过那个详情模式来看一下分区模式能看到信息会更多,因为我t7区里面的话就是一共有三个表,他们的分期方式是一个整形,然后有各个分区,各个分区的那个空间情况也展示出来了,然后接下来t773是我们创建那个 range table 就是T4这个这个表,然后T5是一个历史分区表,然后在我们的体系四中,后面创建的我在我们的T1这个表,它的各个分区保存在哪一个亲字节点我们看一下他有五个分区,然后p3p5它是保存在0号节点,要p2跟p4是保持在一号节点。我们有指令可以看一下,就是看一下我们当前有哪些请求解决,从这里我们可以看到就是当前这个集群的话有两个节,有两个低节点,就是0号跟1号,还有一个是gsgs不提供用户的具体的数据存储,它只提供一些原始元数据的管理。
4、分区合并
那么怎么来分区合并语法?就是如果表主级别的话,就是原来的两个或者多个分区合并到一个新分区变化,除了那个关键字不一样,其他语法跟上面是类似的,就是刚才我们看到了,就是T1跟T3都是在表组,是都在表组S1中,我们看一下他们那个查询有什么特点,就是他们的观点查询,首先看一下T1跟T2,还有T1跟T3他们的查询计划看一眼。我这可以看到T1跟T2的查询,他的关联产生的条件是什么?他们的T1展这段i1跟T2 a就是他们俩拆分件,他们按照
拆分件这个关联查询,按照这种观念查询的话,我们可以将这个查询下推到第一眼上去了,你看他下面变成会变成t1会跟最终会变成呃根据五个分区,每个分区然后变成一个,下到我们的节点中去。然后将转之后的结果拉上来再做一个聚合,这样子就会减少我们在在cn节点上面的大量的一些运算,所以从计划可以看得到T1跟T2,T1跟T3的执行都是在都是这种关联强度下推下去的节点去执行。
我可以找一个具体的看你的具体执行路径,他有五个分区,每个分区都下推下去执行,执行完之后在聚合到我们cn端,最后展示给用户,他能下推是因为他T1跟tT1,T2,T3都是在同一个标注里面的,现在我们要做一个事情,我们要将t在分区T1的分区P2P 3合并到p3中去,我们看一下,做一下这样一个事情,咨询一下,降一个合并操作这里我们是合并两个,当然这里可以合并多个,就是两个或者n都是可以的,我们在合并完了,现在T1他的信息可以看到原来是五个分区,就是p1,P2,P 3,p4,p5,现在变成了现在需要跟p3合并成了一个合并到p3合并到p3了,所以现在还有四个分区,我们看看合并完之后,刚才能够下推的这两条,现在还能不能下推。你看从
这可以看得到原来是下推的一个专业厂的,现在变成了什么?现在变成了将各个T1的数据跟T2的数据。分别拉到我们第三章端在在拉到先端在先,再做计算,所以这个执行计划已经发生了变化,发生变化原因是因为T1的套路发生了变更,然后t2t3没有发生变更,他们就是T1跟T2,T3不加一个表组里面的我们可以具体看一下,所以所以现在表组里面,我们再看看标准的信息,现在pgxg1里面只有两个表了,T2跟T3这两个表,现在做关联查询,它是可以下推的,那么我们对这个t 1做一个表主级别的就是分期合并,我们看看结果在做这个之前,我们先看一下执行计划,这个T2跟T3执行计划可以看到,就是跟刚才T1做变更之前一样,这两个分区的话其实是可以下推一点。给我们做一个表体级别的那个分区合并。我们分别
做完之后,我们再看一下刚才那个执行计划,可以看到做完之后他们执行其实没有变化,因为刚才这个变更操作是T2跟T2,T3同步进行的。
展示完这个分期合并我们我们看看我们的分期分裂,分区分裂跟合并有点类似,就是有点像合并一个反操作。合并是将小分区合并到一起。
5.分区分裂
展示完这个分期合并我们我们看看我们的分期分裂,分区分裂跟合并有点类似,就是有点像合并一个反操作。
指令如下:
要达到的效果是将一个分区分裂成一个分区组,demo 演示:
T1的目前情况,T1的分区情况,现在T1哈,因为我们harsh过了,所以他现在有四个分区,各个分区的空间在这争取出来了,然后我们对p3做个分裂,我们分裂把这个p3分裂之后,,因为我们也没有指定那个分裂之后它的名称,所以它自动给他生成了,把将p3分列成分列到p6p7中去,然后他是按照他的原来p3的哈希空间,等分操作就相当于。原来他是对半分成了两份,然后分别就是平均到新分区p6p7。
我们的表组分裂,因为现在,还有一个表组,就是我们可以继续演示一下,快速演示一下表主级别,其实情况是类似的,就是语法是类似的,然后把表主里面原来的那个T2跟T3同步,将它原来p3给分裂掉,p3套型。可以看到跟刚才我们执行那个表级的效果是类似的,但是只是说跟其他同步进行,同步分裂了对同步的分享。这是刚才我们演示是哈西,他的这种哈希方式,来分期,分期表我们分裂的时候可以不指定就是新的,就是不指定那个新的分期名称,会自动的将我们老分区切换,就就是按照发起空间,然后切分成两个小分区。但是对于其他,例如我们我们的T4,我们提示是一个问题,是个让你分区的表。
他有三个分区,然后p1,P2P 3他的各个分期情况就是从这暂时可以看到我们现在做一个什么操作,我们将它的p3分裂上三个小分区,然后分裂成p30,p3 1p32,我们直接执行一下几个操作。这个查找我这里有两个,我们先咨询一个T5, T5是一个历史分区,历史分区我们也支持分裂了,所以我们把历史分析的p2分区就是p20p2122第三个分期,我们先执行一下,再看看之前后来那个效果,那个t4的执行后的效果,刚才的那个p三分裂成三个新分区了,然后我们再看看T5,还有他的批号被分裂成三个按照他的那个离散的分区。
6.迁移
接下来展示迁移,迁移分期是将表组从一个存储节点挪到另一个节点。达到这个数据均衡,还有或者数据隔离的一个效果,通过这个指令搜索,我们看看当前节点就是有哪些裙子节点,现在有两个成熟阶段,我们看到了,有两个生殖节点,然后我们看看T1,以T1为例,看T1的那个分区的情况,在低零节点,在零号接电话有三个分期,然后一号节点有两个分区,这命令的稍微换一下,因为每一个实际上存储节点不大一样,所以的话我们把这个p1,他现在是在0号节点,我们把它搬到一号节点中去,我们换一下这个节点具体节点信息。就再看看T1的 top 信息是不是已经帮你搬过去。你看刚才p1是在0号t现在已经变到了1号,我们也支持这种,分析组级别的就不要不要分就是表主级别的啊,将表组里面的所有标准对应的分期同步的搬到一个节点游戏,例如我们先来看看啊,我们看看现在test tg1,现在有两个表。就是T2跟T3我们刚才看到了,我们看一下它的 top 形象,
第三,你看他们的套路,相应分区都是在同一个成熟节点的,你看他的e都是在0号,7p都是在0号,然后60都在1号,我们我们把它p4分析组楼道,他现在是在第一上面我们把它拉上去,我们把这个换一下,这样的效果。之前帮我们看一下效果,T3p4他已经走到0号,几点去了,然后同T4也是一样的,因为他们在一个表组里面,这是同步操作。今天我们看一下一个历史分区的一个一个分区表T5,它是一个历史分期的分区表,对于历史分析表我们支持直接修改上的分期中的分期定义,例如我们可以给他分期加,比如我p3,我可以给他加个新的其实历史分区。哈希加一加个新电池,我们来看看给大家第一个我们对p3加两个值进行一下这两个分机制。这样子的话,以后就是分区就是分区建a=2021的数据都会保存在p3中去给我们看一下,现在的话,这个p3的话有在原来基础上多两个值除了添加我们还可以删除吧。
删掉然后他又恢复上刚才那样子,我们的一个添加或者所有的操作表都支持表级跟标准级别,同时我们也支持分区,就是重命名这个天站啊,现在p4 T4这个表中有一个p八命从命名20就仅仅更改元数据,没有什么数据的变迁,提供了一些基础的分期管理能力,有了这些基础分析管理能力,那我们就可以结合的做比较多的事情。
7.热点闪烁
演示一下我们的那个分期的热点闪烁,就有了刚才那些分区基础的分区变更能力,那我们演示一下有热点数据,我们怎么来处理,我们先把这个表创建起来,一会儿再一个个来介绍一下我们。这里的话创建了一个叫 test tg 1。创建了两个表,,这两个表的话,没有指定任何的分期件,没有指定情况,我们全部是按照默认按照组件来拆分的。我们看一下表结构,去创建完账没有直接拆分件的情况下,它是一个默认组件,拆分默认组件它是什么样的情况。可以看到他这个表现之后呢,他没有指定方式,所以他js默认的曲线拆分拆分成16个分片,底下表也是类似的一个他的主见的拆分,你看这里的话,我们没有指定那个,没有指定拆分方式,也没有指定他的标准,但是它自动的聚合到了两件,两个表自动的聚合到里面叫t77这个标准中,因为他们在拆分方式都是一致的,都是按照这个 IDt 分区,然后分区都是16个分区,所以他们是单方是一致,所以被制动自动的区合到一个标准中去了。接下来准备准备一些测试数据。这个是数据啊,大概应该是两个表,一共有100万左右,我现在赶紧咨询一下一个表50万行左右。我们随机的插入一些数据,但是按照我们的策略随机的插入一些数据,我们的策略是什么。我们现在按照我们的车辆,我们插入的数据,大量的数据它的打 iQOO 代表来说它的数据话,我的 ID 的那个3点,我们把这个也执行一下,我ID落在属于就是88,这就是爆炸,就等于88的数据,还有或者ID等于就是空,这样一个数据特别多,我们设计出来的。而我们先把另外一个表的数据也准备好,看一看他们里面的数据,其实这两个表的提供了一些规则来查这两个表的各个表的那个数据分布情况,因为刚创建的话,可能他的统一性下都特别完善,我们来执行一下。然后查看一下他们的各个分区的数据可以看到,因为我们默认是按照组件,按照组件来拆分了,然后这里组建组建的话是一个,这里组建一个自争的。所以的话,他这个天然自增主键来拆分和他的各个分区,他的均衡性是能做到非常好的,从这也能从我们这些事实中也能够认证啊,这两个表是比较均匀的,我们我们我们现在看一下这个量化表,就说我们业务上有这么一个转移关系,就是按照是我的 ID 跟那个 ID 两个来作为一个查询,这个执行计划是因为是按照组件来拆分的,然后我们俩关联条件并不是主见,所以这两个表,他都是一个需要作为一个全面扫描,这各自的16个分区都去那里把数据拉上来之后,然后再节点做关联。
再根据他的结果来做个 ag,看看具体有多少数据,所以这个查询的话其实是蛮耗时,发生时间1秒多,其实我们数据量不大,应该现在数据量不大,太大话时间就比较久。我们的查询是按照我的 ID 跟那个 ID 来做关联查询,想办法让他们能够下推,先在上面做点创建两个,所以两个技术,所以这个技术专业是按照 customer跟iii需要一点时间。你每个表大概有50万的数据,所以大概要可能要二三十秒才能执行完。从我们创建这个技术,所以其实也没有指定他的整体方向,我们会默认没有按默认按照那个哈西来按照 key 的方式来划分区分。这个是50多秒才执行完,今天还表示这两个表的数据量是差不多的较尴尬,这个时间时间的话是一个小时,一个小时是蛮紧张。建完,如下图
其实已经变成了一个可下推的,而且是走势索引,那个技术,所以的话它参与方式就是按照喀什来拆分的,都是技术,所以他们也没必要回表,所以这个一定是我们看看这个执行计划,刚才是大概两秒,现在看看大概多长时间。他的时间其实看起来没多大变化,为什么会这样子,就是从执行时间看看没有什么改善,我们看一下它的那个数据分布情况,我们创建了两个,所以这两个技术,所以你看这两个区域居住,所以存在严重的数据热点,你看他们的p5跟p12这两个分区的数据量特别特别多,占了百分之80左右啦,我们可以通过命令查看一下,查看一下具体的信息,就是为什么这个数据会是这样子的,你看因为我们在教数据的时候,人为的把customer ID=now 跟ID=88这两个,字段信息这两个就是用户,我们构造成一个大用户,热点用户,所以他们的数据量占了整个分期的基本百分之90多以上,然后我们的所以是按照这是按照ID来和ID来划分的,所以的话。他各自的他这两个索引表存在的严重的数据热点,现在我们有个指令可以对它进行热点的闪亮,我们先执行看一下,因为时间关系,我边执行边介绍对这个指令什么意思,这里是 order 到class i这个索引的名称要 into 16 by value now,这个意思是对于,i等于闹点值,我们在这个索引表上最对于这些能给他切分成6个分区。
原来是在一个分区的,我们把它分成16个分区,我们执行完再看看那个具体的效果。执行大概用了20多秒,然后第二个指令,第二指令是是对于记录给他打散到16个分区中,就是代表的前两个指令代表所代表的索引。所以接下来我们是对的索引来做相同的操作,他们卡死了i88这里,索引表的这个分期这个数据划分成实物,特意让他的跟上面不对齐,原因是想让他不在一个表组上面,现在我们不管比较我们先来看看它的分区信息,来看看他的分析情况可以看得到经过我们刚才的热点闪电之后,他的分期基本上就是比较均匀了,大概40%左右的那个大分区已经被打散成16个分区去了,其实是比较均匀的,那我们要试一下这个加快速度,,这边看这个适合我们发现它并没有相应下去。因为我们的索引表人为的让他不在一个表组的中去了,尽管他到现在他并没有这样一个比较主动,我们来变更一些表主,实行一下。旁边执行边来就是首先我创建一个显示创建比较标准名称就是这个,然后将order 这个,所以你的标准指定为它第一条语句话,其实相当于更改一下它元素句型的没有什么任何的这个数据变动,第一个指电话会有数据的迁移,因为他们之间的这个分期信息不对齐,各个分期的物理存储方式可能也不大一样,现在的话强制的执行这个 group 会按照这个公路里面的分析信息在这个索引表进去现在那个数据分布。执行完了,我们现在看一下查询,看执行完之后,然后这个查询走一个下推的就下去了,我们再来看看具体的执行时间。大概大概减少了百分之二,两分多,现在减现在变成了两秒钟,现在1秒多,这个数据量不是特别大,还没有体现这种优势的,但是当数据量到千万就是级别或者是上亿的话,上面就是如果不下去的话,就执行效率是非常非常差的。
今天所有的 demo 的全部信息。我们可以继续看一下刚才为什么还能下推,然后我们查询一下时候,这有一个小组是我们显示的创建的就是这个标准叫 tg idxik 这个标准里面现在有两个索引表,代表 cast idi 这个索引,还有里面的索引表,所以他们两个索引在一个标准中,我们这关联查询的话,我们就可以让他们的高铁产下去,像现在这个他就能够将这个查询给下载到地上去执行,这就是今天的全部内容。