【赵渝强老师】OceanBase的分区表

本文涉及的产品
PolarDB Agent Express,2核4GB
RDS AI 助手,专业版
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
简介: OceanBase支持Range、List、Hash、Key等多种分区类型:Range/Range COLUMNS/List/List COLUMNS适用于高效删除;Hash用于数据均匀打散;Key分区支持多列及非整数类型,更灵活。含实操示例与执行计划分析。

b441.png

OceanBase当前支持的类型包括Range分区、Range COLUMNS分区、List分区、List COLUMNS分区、Hash分区和Key分区等,其中:

  • Range分区、Range COLUMNS分区、List分区和List COLUMNS分区可以用于解决业务中大量删除带来的性能问题,支持快速删除分区。
  • Hash分区和Key分区可以用于大量写入场景下的数据打散。与Hash分区相比,Key分区支持多列打散和非整数类型字段的打散。


视频讲解如下:


下面分别介绍这几种分区表。

一、 Range分区

一个表按Range分区是指,对于表的每个分区中包含的所有行,按分区表达式计算的值都落在给定的范围内。Range必须是连续的,并且不能有重叠,通过使用VALUES LESS THAN进行定义。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照薪水建立Ranger分区。

ob> create table emp_range 
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int
  )partition by range (sal) (
      partition p0 values less than (1000),
      partition p1 values less than (3000),
      partition p2 values less than maxvalue
  );


(2)往表中插入数据。

ob> insert into emp_range select * from emp;


(3)查询薪水在2000~2500之间的员工,并查看执行计划。

ob> explain select * from emp_range where sal between 2000 and 2500;
# 提示:从执行计划可以看出,本次查询只扫描分区p1。

image.png


二、 Range COLUMNS分区


Range COLUMNS分区是Range分区的一种变体。可以使用一个或者多个列作为分区键,分区列的数据类型可以是整数(integer)、字符串(CHAR/VARCHAR),DATE和DATETIME。不支持使用任何表达式。和Range分区一样,Range COLUMNS分区同样需要分区的范围是严格递增的。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照职位和薪水建立Range COLUMNS分区。

ob> create table emp_range_column
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int
  )partition by range columns (job,sal) (
      partition p0 values less than ('CLERK',1000),
      partition p1 values less than ('CLERK',3000),
       partition p2 values less than ('CLERK',maxvalue),
      partition p3 values less than ('SALESMAN',1000),
      partition p4 values less than ('SALESMAN',3000),
    partition p5 values less than ('SALESMAN',maxvalue)
  );


(2)往表中插入数据。

ob> insert into emp_range_column select * from emp;


(3)查询职位是CLERK,且薪水小于2500之间的员工,并查看执行计划。

ob> explain select * from emp_range where job='CLERK' and sal < 2500;
# 提示:从执行计划可以看出,本次查询只扫描分区p0和p1。

image.png


三、 List分区


List分区和Range分区有很多相似的地方。不同之处主要在于List分区中,对于表的每个分区中包含的所有行,按分区表达式计算的值属于给定的数据集合。每个分区定义的数据集合有任意个值,但不能有重复的值。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照部门号建立List分区。

ob> create table emp_list
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int)
  partition by list(deptno)(
    PARTITION p0 VALUES IN (10,20),
    PARTITION p1 VALUES IN (30),
    PARTITION p2 VALUES IN (default)
  );


(2)往表中插入数据。

ob> insert into emp_list select * from emp;


(3)查询40号部门的员工,并查看执行计划。

ob> explain select * from emp_list where deptno=30;
# 提示:从执行计划可以看出,本次查询只扫描分区p1。


image.png


四、 List COLUMNS分区


List COLUMNS分区是List分区的一种变体,可以将多个列用作分区键,并且可以将整数类型以外的数据类型的列用作分区列。该分区还可以使用字符串类型、DATE和DATETIME类型的列。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照薪水建立Range INTERVAL分区。

ob> create table emp_list_columns
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int)
  partition by list columns(job)(
    PARTITION p0 VALUES IN ('MANAGER'),
    PARTITION p1 VALUES IN ('CLERK'),
    PARTITION p2 VALUES IN ('SALESMAN'),
    PARTITION p3 VALUES IN ('ANALYST'),
    PARTITION p4 VALUES IN ('PRESIDENT')
  );


(2)查看表上的分区信息。

ob> show create table emp_list_columns \G;
# 输出的信息如下:
*************************** 1. row ***************************
       Table: emp_list_columns
Create Table: CREATE TABLE `emp_list_columns` (
  `empno` int(11) DEFAULT NULL,
  `ename` varchar(10) DEFAULT NULL,
  `job` varchar(10) DEFAULT NULL,
  `mgr` int(11) DEFAULT NULL,
  `hiredate` varchar(10) DEFAULT NULL,
  `sal` int(11) DEFAULT NULL,
  `comm` int(11) DEFAULT NULL,
  `deptno` int(11) DEFAULT NULL
) ORGANIZATION INDEX DEFAULT CHARSET = utf8mb4 ROW_FORMAT = DYNAMIC COMPRESSION = 'zstd_1.3.8' REPLICA_NUM = 1 BLOCK_SIZE = 16384 USE_BLOOM_FILTER = FALSE ENABLE_MACRO_BLOCK_BLOOM_FILTER = FALSE TABLET_SIZE = 134217728 PCTFREE = 0
 partition by list columns(job)
(partition `p3` values in ('ANALYST'),
partition `p1` values in ('CLERK'),
partition `p0` values in ('MANAGER'),
partition `p4` values in ('PRESIDENT'),
partition `p2` values in ('SALESMAN'))
1 row in set (0.035 sec)


五、 Hash分区


Hash分区会根据数据的Hash值建立分区,如果数据的Hash值一样,那么数据将会放入同一个分区中。Hash分区主要用于保证数据均匀地分散到一定数量的分区里面。下图解释了Hash分区的原理。

image.png


下面的语句将创建一张新的员工表,按照经理号(mgr)建立4个Hash分区。

ob> create table emp_hash_by_mgr
      (empno int,
      ename varchar(10),
      job varchar(10),
      mgr int,
      hiredate varchar(10),
      sal int,
      comm int,
      deptno int)
    partition by hash(mgr) partitions 4;
# 提示:如果不指定partitions 4,默认的分区数量为 1。


六、 Key分区


Key分区与Hash分区都可以保证将数据均匀地分散到一定数量的分区里面,区别是Hash分区只能根据一个指定的整数表达式或字段进行分区,而Key分区可以根据字段列表进行分区,且Key分区的分区字段不局限于整数类型。创建Key分区表时,你需要在CREATE TABLE后面添加PARTITION BY KEY(columnList),其中columnList是字段列表,可以包含一个或多个字段。每个字段的类型可以是除BLOB、JSON、GEOMETRY之外的任意类型(请注意TiDB不支持GEOMETRY类型)。此外,你很可能还需要加上PARTITIONS num,其中num是一个正整数,表示将表划分多少个分区。下面的语句将创建一个Key分区表,按员工的职位job分成4个分区:

ob> create table emp_hash_by_job
      (empno int,
      ename varchar(10),
      job varchar(10),
      mgr int,
      hiredate varchar(10),
      sal int,
      comm int,
      deptno int)
    partition by key(job) partitions 4;
相关文章
计算机中存储单位的换算
计算机中存储单位的换算
|
SQL 关系型数据库 数据库
MySQL · 社区动态 · Online DDL 工具 gh-ost 支持阿里云 RDS
背景 Online DDL 一直都是 DBA 运维时比较头疼的事,一般都会选择在业务低峰期谨慎的操作,比较常用的几个工具比如 percona pt-online-schema-change , Facebook OSC, 本质上它们都是基于触发器的,简单来讲就是通过数据库的触发器把作用在源表的操作在一个事务内同步到修改后的表中,这在业务高峰期时会极大的加重主库的负载。
5704 0
|
1月前
|
人工智能 安全 Java
Spring AI 核心架构、抽象模型与四大核心组件设计精髓
Spring AI 是 Spring 官方推出的 Java AI 应用开发框架,遵循“约定优于配置”等核心理念,提供统一 API 屏蔽多模型差异,支持 OpenAI、通义千问等厂商,集成 RAG、函数调用、结构化输出及企业级可观测性能力。
485 1
|
5月前
|
人工智能 安全 数据可视化
2025年大型企业BI工具选型指南:10款主流产品深度解析
2025年大型企业BI选型需聚焦生态适配与场景落地。本指南深度解析10款主流工具,涵盖瓴羊Quick BI、Tableau、Power BI等,覆盖制造、零售、金融等行业需求,助力企业实现数据驱动决策。
|
5月前
|
SQL 关系型数据库 数据库
分布式事务Seata
本章节深入探讨分布式事务问题,涵盖CAP定理与BASE理论,重点学习Seata框架的XA、AT、TCC及SAGA四种事务模式,掌握跨服务事务一致性解决方案,并实践高可用部署架构。
303 0
分布式事务Seata
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
658 1
|
Oracle 关系型数据库
Oracle中decode 以及ROW_NUMBER() OVER() 函数等其它相关函数用法
Oracle中decode 以及ROW_NUMBER() OVER() 函数等其它相关函数用法
635 0
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
1670 17
|
存储 编译器 C语言
【C语言程序设计——入门】C语言入门与基础语法(头歌实践教学平台习题)【合集】
本文档介绍了C语言环境配置和编程任务,主要内容包括: - **C语言环境配置**:详细讲解了在Windows系统上配置C语言开发环境的步骤。 - **第1关:程序改错**:包含任务描述、相关知识(如头文件引用、基本语法规则)、编程要求、测试说明及通关代码。 - **第2关:scanf函数**:涉及`scanf`和`printf`函数的格式与使用方法,提供编程要求、测试说明及通关代码。 文档结构清晰,涵盖从环境搭建到具体编程任务的完整流程,适合初学者学习和实践。
491 4
|
存储 消息中间件 设计模式
缓存数据一致性策略如何分类?
数据库与缓存数据一致性问题的解决方案主要分为强一致性和最终一致性。强一致性通过分布式锁或分布式事务确保每次写入后数据立即一致,适合高要求场景,但性能开销大。最终一致性允许短暂延迟,常用方案包括Cache-Aside(先更新DB再删缓存)、Read/Write-Through(读写穿透)和Write-Behind(异步写入)。延时双删策略通过两次删除缓存确保数据最终一致,适用于复杂业务场景。选择方案需根据系统复杂度和一致性要求权衡。
590 0

热门文章

最新文章