OceanBase 源码解读(三):分区的一生

简介: 源码是OceanBase的“方向盘”,本系列主要围绕“源码解读”,通过文章阐述,帮助大家理清数据库的内在本质。此前,带你读源码第二篇《戳这里回顾:OceanBase源码解读(二):SQL的一生》为大家介绍了OceanBase 数据库中一条 SQL 的执行流程主路径,包括接收、处理、返回结果给客户端的过程,探讨了OceanBase的SQL引擎模块。

121.gif

引言


源码是OceanBase的“方向盘”,本系列主要围绕“源码解读”,通过文章阐述,帮助大家理清数据库的内在本质。此前,带你读源码第二篇《戳这里回顾:OceanBase源码解读(二):SQL的一生》为大家介绍了OceanBase 数据库中一条 SQL 的执行流程主路径,包括接收、处理、返回结果给客户端的过程,探讨了OceanBase的SQL引擎模块。

本文为 OceanBase 数据库源码解读系列文章的第三篇,将主要为大家介绍 OceanBase  的存储层像相关知识

正文


假若分区是  OceanBase 的一等公民。一个表由一个或者若干个分区组成,分区是 OceanBase  逻辑上水平可扩展概念和物理上数据组织的基本单位。分区是自包含的:每个分区有自己独立的选举和  leader,独立的事务日志、数据存储和索引。分区可大可小,一般大小在 G B量级,它可以被 RS 在多个节点之间调度以实现负载均衡。


每个分区有一个唯一标识  OBPartitionKey,由租户 id、表 id、分区 id 组成。从存储层来说,每个节点就是存储和组织这些 key  对应的分区副本,每个节点上可以有数万个副本。副本有多种类型,比如只读副本与主副本之间不是通过 paxos 协议,而是异步消息同步事务日志。

image.png

image.gif


storage/ob_partition_service.h 是存储层的总入口,它对外提供了存储层的所有 RPC 服务,如创建删除分区副本。实际上,它是每个节点上所有分区级接口的入口,包括事务控制接口、分区读写的接口等。


前面讲过,建表和新增分区等 DDL 语句是由 RS 执行的,RS 在根据一定策略选定节点后,就会 RPC 调用这里的 create_xxx。


从这个入口一层一层追下去,可以找到所有存储结构。但存储层内部有大量类似的接口,很容易混淆。每个分区都是一个“索引组织表”,索引结构是多层的  LSM-Tree。虽然是多层,但是有参数可以调整,尽量只有内存里的 memtable(见storage/memtable)和磁盘上的  major sstable(见 storage/blocksstable)两层。每次 major compaction  的时候,memtable, minor sstable 的数据与原来的 major sstable 合并,产生新版本的 major  sstable。在合并期间,可能有多个版本的 major sstable 同时提供服务。一个分区副本的多层存储结构合起来,就是类  OBPartitionStore。


分析到这里,大家还以为“分区是  OB 的一等公民”嘛吗?其实PG 才是。此 PG 非彼 PG。PG,Partition Group,表示共享同一个事务日志流和  memtable 的“有紧密关系的”一组分区。外部一般不使用这个特性,一般一个 PG  里面只有一个分区,这就是为什么这里的存储结构和操作对象会有奇怪的pg前缀和 OBPGKey了。


为了表达诚意,献上我画的存储结构相关类图。

image.png

image.gif

一图胜千言。


image.gifimage.png


sql/engine/table  是 SQL 物理执行计划中执行表扫描的算子,它通过 ob_partition_service.h 的 table_scan  接口获得一个迭代器(迭代结束要调用 revert_scan_iter),这就是存储层提供的数据访问入口。还有  DML(sql/engine/dml)使用的insert_rows, delete_rows, update_rows和lock_rows  等接口。


当分区或表被删除的时候,OBPGPartition 及其所有包含的存储结构将被删除。但是并非立即释放资源,要等所有引用失效且资源不被使用时执行清理。


以上便是分区的一生。在后续的源码解读第四篇我们将会为大家解析OceanBase 数据库事务的外部接口,敬请期待。



相关文章
|
5月前
|
存储 SQL 数据库
OceanBase数据库的分区策略
【8月更文挑战第13天】OceanBase数据库的分区策略
265 5
|
7月前
|
存储 分布式数据库 数据库
深入OceanBase内部机制:分区构建高可用、高性能的分布式数据库基石
深入OceanBase内部机制:分区构建高可用、高性能的分布式数据库基石
|
存储 SQL 缓存
OceanBase 源码解读(十二):宏块的垃圾回收和坏块检查
此前,OceanBase 源码解读第十一篇《Location Cache 模块浅析》,为大家介绍了 observer 上的一个基础模块,为 SQL、事务、CLOG 等多个其他模块提供获取及缓存某个副本位置信息的能力的 Location Cache 模块。本期“源码解读”继续由 OceanBase 技术专家公祺为大家带来“存储层代码解读之「宏块的垃圾回收和坏块检查」”。
327 0
OceanBase 源码解读(十二):宏块的垃圾回收和坏块检查
|
SQL 存储 缓存
OceanBase 源码解读(十一):Location Cache 模块浅析
OceanBase 源码解读(十一):Location Cache 模块浅析
347 0
OceanBase 源码解读(十一):Location Cache 模块浅析
|
存储 Java 数据库
OceanBase 源码解读(九):存储层代码解读之「宏块存储格式」
此前,带你读源码第八篇《事务日志的提交和回放》,为大家介绍了日志模块的设计理念和日志的一生。本期“源码解读”由数据库技术专家公祺为大家带来“存储层代码解读之「宏块存储格式」”
503 0
|
SQL 存储 Java
OceanBase 源码解读(七):一文读懂数据库索引实现原理
此前,带你读源码第六篇《戳这里回顾:OceanBase 源码解读(六):存储引擎详解》为大家详细讲解了 OceanBase 存储引擎,并为大家回答了关于 OceanBase 数据库的相关提问。
764 1
|
存储 缓存 Oracle
OceanBase 源码解读(六):存储引擎详解
从2010年一路走来,每一步 OceanBase 犹如走在悬崖峭壁,走得十分小心翼翼。回头看,非处当时之情景,不能理解当时之设计。好的设计不是“想”出来的,而是“痛”出来的,希望大家在阅读时也能够感受到这份成果背后的“痛并快乐着”。
1398 0
|
SQL 调度 数据库
OceanBase 源码解读(五):租户的一生
此前,带你读源码第四篇《戳这里回顾:OceanBase 源码解读(四):事务的一生》为大家介绍了事务的外部接口相关知识。本文将介绍社区版中创建、删除租户、资源隔离的相关代码。
465 0
|
SQL 存储 数据库
OceanBase 源码解读(四):事务的一生
源码是 OceanBase 的“方向盘”,本系列主要围绕“源码解读”,通过文章阐述,帮助大家理清数据库的内在本质。此前,带你读源码第三篇《戳这里回顾:OceanBase 源码解读(三)分区的一生》为大家介绍了OceanBase 的存储层的相关内容。在第一节讲通信协议 obmp_query 时,跳过了事务控制的细节,本文为 OceanBase 数据库源码解读系列文章的第四篇,将主要为大家介绍事务的外部接口相关知识。
388 0
|
5月前
|
存储 SQL 分布式数据库
OceanBase 入门:分布式数据库的基础概念
【8月更文第31天】在当今的大数据时代,随着业务规模的不断扩大,传统的单机数据库已经难以满足高并发、大数据量的应用需求。分布式数据库应运而生,成为解决这一问题的有效方案之一。本文将介绍一款由阿里巴巴集团自主研发的分布式数据库——OceanBase,并通过一些基础概念和实际代码示例来帮助读者理解其工作原理。
444 0

热门文章

最新文章