【赵渝强老师】OceanBase的分区表

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS Agent(兼容OpenClaw),2核4GB
RDS Agent(兼容Hermes Agent),2核4GB
简介: OceanBase支持Range、List、Hash、Key等多种分区类型:Range/Range COLUMNS/List/List COLUMNS适用于高效删除;Hash用于数据均匀打散;Key分区支持多列及非整数类型,更灵活。含实操示例与执行计划分析。

b441.png

OceanBase当前支持的类型包括Range分区、Range COLUMNS分区、List分区、List COLUMNS分区、Hash分区和Key分区等,其中:

  • Range分区、Range COLUMNS分区、List分区和List COLUMNS分区可以用于解决业务中大量删除带来的性能问题,支持快速删除分区。
  • Hash分区和Key分区可以用于大量写入场景下的数据打散。与Hash分区相比,Key分区支持多列打散和非整数类型字段的打散。


视频讲解如下:


下面分别介绍这几种分区表。

一、 Range分区

一个表按Range分区是指,对于表的每个分区中包含的所有行,按分区表达式计算的值都落在给定的范围内。Range必须是连续的,并且不能有重叠,通过使用VALUES LESS THAN进行定义。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照薪水建立Ranger分区。

ob> create table emp_range 
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int
  )partition by range (sal) (
      partition p0 values less than (1000),
      partition p1 values less than (3000),
      partition p2 values less than maxvalue
  );


(2)往表中插入数据。

ob> insert into emp_range select * from emp;


(3)查询薪水在2000~2500之间的员工,并查看执行计划。

ob> explain select * from emp_range where sal between 2000 and 2500;
# 提示:从执行计划可以看出,本次查询只扫描分区p1。

image.png


二、 Range COLUMNS分区


Range COLUMNS分区是Range分区的一种变体。可以使用一个或者多个列作为分区键,分区列的数据类型可以是整数(integer)、字符串(CHAR/VARCHAR),DATE和DATETIME。不支持使用任何表达式。和Range分区一样,Range COLUMNS分区同样需要分区的范围是严格递增的。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照职位和薪水建立Range COLUMNS分区。

ob> create table emp_range_column
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int
  )partition by range columns (job,sal) (
      partition p0 values less than ('CLERK',1000),
      partition p1 values less than ('CLERK',3000),
       partition p2 values less than ('CLERK',maxvalue),
      partition p3 values less than ('SALESMAN',1000),
      partition p4 values less than ('SALESMAN',3000),
    partition p5 values less than ('SALESMAN',maxvalue)
  );


(2)往表中插入数据。

ob> insert into emp_range_column select * from emp;


(3)查询职位是CLERK,且薪水小于2500之间的员工,并查看执行计划。

ob> explain select * from emp_range where job='CLERK' and sal < 2500;
# 提示:从执行计划可以看出,本次查询只扫描分区p0和p1。

image.png


三、 List分区


List分区和Range分区有很多相似的地方。不同之处主要在于List分区中,对于表的每个分区中包含的所有行,按分区表达式计算的值属于给定的数据集合。每个分区定义的数据集合有任意个值,但不能有重复的值。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照部门号建立List分区。

ob> create table emp_list
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int)
  partition by list(deptno)(
    PARTITION p0 VALUES IN (10,20),
    PARTITION p1 VALUES IN (30),
    PARTITION p2 VALUES IN (default)
  );


(2)往表中插入数据。

ob> insert into emp_list select * from emp;


(3)查询40号部门的员工,并查看执行计划。

ob> explain select * from emp_list where deptno=30;
# 提示:从执行计划可以看出,本次查询只扫描分区p1。


image.png


四、 List COLUMNS分区


List COLUMNS分区是List分区的一种变体,可以将多个列用作分区键,并且可以将整数类型以外的数据类型的列用作分区列。该分区还可以使用字符串类型、DATE和DATETIME类型的列。下面通过一个示例来进行演示。


(1)创建一张新的员工表,按照薪水建立Range INTERVAL分区。

ob> create table emp_list_columns
  (empno int,
    ename varchar(10),
    job varchar(10),
    mgr int,
    hiredate varchar(10),
    sal int,
    comm int,
    deptno int)
  partition by list columns(job)(
    PARTITION p0 VALUES IN ('MANAGER'),
    PARTITION p1 VALUES IN ('CLERK'),
    PARTITION p2 VALUES IN ('SALESMAN'),
    PARTITION p3 VALUES IN ('ANALYST'),
    PARTITION p4 VALUES IN ('PRESIDENT')
  );


(2)查看表上的分区信息。

ob> show create table emp_list_columns \G;
# 输出的信息如下:
*************************** 1. row ***************************
       Table: emp_list_columns
Create Table: CREATE TABLE `emp_list_columns` (
  `empno` int(11) DEFAULT NULL,
  `ename` varchar(10) DEFAULT NULL,
  `job` varchar(10) DEFAULT NULL,
  `mgr` int(11) DEFAULT NULL,
  `hiredate` varchar(10) DEFAULT NULL,
  `sal` int(11) DEFAULT NULL,
  `comm` int(11) DEFAULT NULL,
  `deptno` int(11) DEFAULT NULL
) ORGANIZATION INDEX DEFAULT CHARSET = utf8mb4 ROW_FORMAT = DYNAMIC COMPRESSION = 'zstd_1.3.8' REPLICA_NUM = 1 BLOCK_SIZE = 16384 USE_BLOOM_FILTER = FALSE ENABLE_MACRO_BLOCK_BLOOM_FILTER = FALSE TABLET_SIZE = 134217728 PCTFREE = 0
 partition by list columns(job)
(partition `p3` values in ('ANALYST'),
partition `p1` values in ('CLERK'),
partition `p0` values in ('MANAGER'),
partition `p4` values in ('PRESIDENT'),
partition `p2` values in ('SALESMAN'))
1 row in set (0.035 sec)


五、 Hash分区


Hash分区会根据数据的Hash值建立分区,如果数据的Hash值一样,那么数据将会放入同一个分区中。Hash分区主要用于保证数据均匀地分散到一定数量的分区里面。下图解释了Hash分区的原理。

image.png


下面的语句将创建一张新的员工表,按照经理号(mgr)建立4个Hash分区。

ob> create table emp_hash_by_mgr
      (empno int,
      ename varchar(10),
      job varchar(10),
      mgr int,
      hiredate varchar(10),
      sal int,
      comm int,
      deptno int)
    partition by hash(mgr) partitions 4;
# 提示:如果不指定partitions 4,默认的分区数量为 1。


六、 Key分区


Key分区与Hash分区都可以保证将数据均匀地分散到一定数量的分区里面,区别是Hash分区只能根据一个指定的整数表达式或字段进行分区,而Key分区可以根据字段列表进行分区,且Key分区的分区字段不局限于整数类型。创建Key分区表时,你需要在CREATE TABLE后面添加PARTITION BY KEY(columnList),其中columnList是字段列表,可以包含一个或多个字段。每个字段的类型可以是除BLOB、JSON、GEOMETRY之外的任意类型(请注意TiDB不支持GEOMETRY类型)。此外,你很可能还需要加上PARTITIONS num,其中num是一个正整数,表示将表划分多少个分区。下面的语句将创建一个Key分区表,按员工的职位job分成4个分区:

ob> create table emp_hash_by_job
      (empno int,
      ename varchar(10),
      job varchar(10),
      mgr int,
      hiredate varchar(10),
      sal int,
      comm int,
      deptno int)
    partition by key(job) partitions 4;
相关文章
|
SQL 数据库 开发者
pycharm社区版跟专业版有什么区别
pycharm社区版跟专业版有什么区别
2495 0
计算机中存储单位的换算
计算机中存储单位的换算
|
SQL 关系型数据库 数据库
MySQL · 社区动态 · Online DDL 工具 gh-ost 支持阿里云 RDS
背景 Online DDL 一直都是 DBA 运维时比较头疼的事,一般都会选择在业务低峰期谨慎的操作,比较常用的几个工具比如 percona pt-online-schema-change , Facebook OSC, 本质上它们都是基于触发器的,简单来讲就是通过数据库的触发器把作用在源表的操作在一个事务内同步到修改后的表中,这在业务高峰期时会极大的加重主库的负载。
5736 0
|
2月前
|
存储 人工智能 并行计算
阿里云无影灵构:AI创新者的云端算力新引擎——一站式AIGC创研平台,支持大龙虾等一键部署
在AIGC爆发时代,本地算力瓶颈(显存不足、环境复杂、协作低效、成本高昂)严重制约创作。阿里云无影灵构应运而生——提供RTX 5880 48G企业级云端算力、ComfyUI/SD等开箱即用镜像、按量计费+DiT加速、工作流一键封装分发,助力开发者轻装上阵、高效创新。
|
2月前
|
人工智能 安全 Java
Spring AI 核心架构、抽象模型与四大核心组件设计精髓
Spring AI 是 Spring 官方推出的 Java AI 应用开发框架,遵循“约定优于配置”等核心理念,提供统一 API 屏蔽多模型差异,支持 OpenAI、通义千问等厂商,集成 RAG、函数调用、结构化输出及企业级可观测性能力。
550 1
|
6月前
|
人工智能 安全 数据可视化
2025年大型企业BI工具选型指南:10款主流产品深度解析
2025年大型企业BI选型需聚焦生态适配与场景落地。本指南深度解析10款主流工具,涵盖瓴羊Quick BI、Tableau、Power BI等,覆盖制造、零售、金融等行业需求,助力企业实现数据驱动决策。
|
6月前
|
安全 调度 数据库
混合云架构:云上云下一体化
混合云架构融合公有云弹性与私有云可控性,通过网络互联、数据同步、应用协同、安全合规与成本优化,实现云上云下资源一体化。适用于金融等对安全与性能双高要求行业,助力企业平衡创新、稳定与成本,是数字化转型优选方案。(238字)
386 0
|
8月前
|
传感器 运维 安全
《智慧园区物联深耕:零信任全维度解析》
本文聚焦智慧园区物联网安全痛点,结合实际项目实践,阐述零信任架构的定制化落地路径。智慧园区物联网设备存在身份管理缺失、权限分配粗放、数据传输与存储漏洞等核心问题,传统防护难以适配设备多样、场景复杂的特性。文章提出“轻量化认证-动态权限-全链路加密”方案,通过差异化身份治理、三维权限重构、端到端加密筑牢安全基础,搭配“场景基线+行为异常”威胁检测体系及硬件旁路认证、协议适配等兼容性优化方案,解决老旧设备改造、误报率控制等实操难题。
445 0
|
Oracle 关系型数据库
Oracle中decode 以及ROW_NUMBER() OVER() 函数等其它相关函数用法
Oracle中decode 以及ROW_NUMBER() OVER() 函数等其它相关函数用法
657 0
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
1701 17