漫谈OceanBase 列式存储

简介: 列式存储主要的目的有两个: 大部分OLAP查询只需要读取部分列而不是全部列数据,列式存储可以避免读取无用数据; 将同一列的数据在物理上存放在一起,能够极大地提高数据压缩率。 OLAP和OLTP OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。

列式存储主要的目的有两个:

  • 大部分OLAP查询只需要读取部分列而不是全部列数据,列式存储可以避免读取无用数据;
  • 将同一列的数据在物理上存放在一起,能够极大地提高数据压缩率。

OLAP和OLTP

OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。在这样的系统中,语句的执行量不是考核标准,因为一条语句的执行时间可能会非常长,读取的数据也非常多。所以,在这样的系统中,考核的标准往往是磁盘子系统的吞吐量(带宽),如能达到多少MB/s的流量。

在OLAP系统中,常使用分区技术、并行技术。

分区技术在OLAP系统中的重要性主要体现在数据库管理上,比如数据库加载,可以通过分区交换的方式实现,备份可以通过备份分区表空间实现,删除数据可以通过分区进行删除,至于分区在性能上的影响,它可以使得一些大表的扫描变得很快(只扫描单个分区)。另外,如果分区结合并行的话,也可以使得整个表的扫描会变得很快。总之,分区主要的功能是管理上的方便性,它并不能绝对保证查询性能的提高,有时候分区会带来性能上的提高,有时候会降低。

在OLAP系统中,不需要使用绑定(BIND)变量,因为整个系统的执行量很小,分析时间对于执行时间来说,可以忽略,而且可避免出现错误的执行计划。但是OLAP中可以大量使用位图索引,物化视图,对于大的事务,尽量寻求速度上的优化,没有必要像OLTP要求快速提交,甚至要刻意减慢执行的速度。

绑定变量真正的用途是在OLTP系统中,这个系统通常有这样的特点,用户并发数很大,用户的请求十分密集,并且这些请求的SQL 大多数是可以重复使用的。

OLTP,也叫联机事务处理(Online Transaction Processing),表示事务性非常高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行的Transaction以及Execute SQL的数量。在这样的系统中,单个数据库每秒处理的Transaction往往超过几百个,或者是几千个,Select 语句的执行量每秒几千甚至几万个。典型的OLTP系统有电子商务系统、银行、证券等,如美国eBay的业务数据库,就是很典型的OLTP数据库。

列组(Column Group)

OceanBase通过列组支持行列混合存储,每个列组存储多个经常一起访问的列。
OceanBase 列组设计
如上图所示,OceanBase SSTable首先按照列组存储,每个列组内部再按行存储。分为几种情况:

  • 所有列属于同一个列组。数据在SSTable中按行存储,OLTP应用往往配置为这种方式。
  • 每列对应一个列组。数据在SSTable中按列存储,这种方式在实际应用中比较少见。
  • 每个列组对应一行数据的部分列。数据在SSTable中按行列混合存储,OLAP应用往往配置为这种方式。

OceanBase还允许一个列属于多个列组,通过冗余存储这些列,能够提高访问性能。例如,某表格总共包含5列,用户经常一起访问(1,3,5)或者(1,2,3,4)列。如果将(1,3,5)和(l,2,3,4)存储到两个列组中,那么,大部分访问只需要读取一个列组,避免了多个列组的合并操作。

列式存储提高了数据压缩比,然面,实践过程中我们发现,由于OceanBase最初的几个版本内存操作实现得不够精细,例如数据结构设计不合理,数据在内存中膨胀很多倍,导致大查询的性能瓶颈集中在CPU,列式存储的优势完全没有发挥出来。这就告诉我们,列式存储的前提是设计好内存数据结构,把CPU操作优化好,否则,后续的工作都是无用功。为了更好地支持OLAP应用,新版的OceanBase将重新设计列式存储引擎。

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
8天前
|
存储 SQL 关系型数据库
TiDB的优势:为何选择TiDB作为您的数据库解决方案
【2月更文挑战第25天】随着数据规模的不断增长和业务需求的日益复杂化,现代企业对数据库系统的扩展性、高可用以及分布式处理能力提出了更高的要求。TiDB作为一个新型的开源分布式数据库,以其独特的设计理念与卓越的技术特性,在众多数据库解决方案中脱颖而出。本文将深入剖析TiDB的核心优势,探讨其如何帮助企业从容应对海量数据挑战、实现无缝水平扩展、保障服务高可用性,并提供灵活一致的事务支持。
|
SQL 存储 缓存
OceanBase查询优化器
本文整理自OceanBase团队高级技术专家王国平,在深入浅出 OceanBase线上技术沙龙第二期的分享。
OceanBase查询优化器
|
SQL 算法 数据库
OceanBase 查询优化 | 学习笔记
快速学习 OceanBase 查询优化
999 0
OceanBase 查询优化 | 学习笔记
|
8天前
|
关系型数据库 MySQL 数据库
使用oceanbase
使用oceanbase
26 0
|
8天前
|
SQL Oracle 关系型数据库
OceanBase 使用
OceanBase 使用
25 5
|
8天前
|
存储 SQL 负载均衡
OceanBase
OceanBase是一款由蚂蚁集团和阿里巴巴完全自主研发的分布式关系型数据库,自2010年创始以来,一直致力于提供高效、稳定、可靠的数据存储和管理解决方案。该数据库具有数据强一致、高可用、高性能、在线扩展、高度兼容SQL标准和主流关系型数据库、低成本等特点,已经成为了许多企业和组织在处理大规模数据时的首选。 OceanBase采用分布式架构,可以将数据分布在多个节点上,实现了数据的负载均衡和容错处理。同时,它还具备数据强一致性的特点,可以保证数据在多个节点上的一致性,避免了数据不一致的问题。这使得OceanBase成为了金融、电商等对数据一致性要求极高的领域的理想选择。 除了在蚂蚁集团和阿里巴
64 7
|
8月前
|
存储 关系型数据库 MySQL
PolarDB-X 存储引擎核心技术 | Lizard分布式事务系统
关系型数据库作为支撑企业级数据的在线存储方案,发挥了无可替代的作用。随着海量数据的增长,以及面对创新业务爆发性增长的场景,如何能够快速,业务无损的进行在线数据库扩容,对数据库的架构提出了巨大的挑战,除此以外,企业的精细化经营,也要求数据库能够一站式提供事务处理能力和数据分析能力,为了应对这些挑战,分布式数据库应运而生。
|
10月前
|
SQL 分布式计算 数据库
OceanBase 是一种分布式数据库系统
OceanBase 是一种分布式数据库系统
144 3
|
SQL 算法 测试技术
OceanBase 4.0 解读:分布式查询性能提升,我们是如何思考的 ?
OceanBase 4.0 解读:分布式查询性能提升,我们是如何思考的 ?
458 0
OceanBase 4.0 解读:分布式查询性能提升,我们是如何思考的 ?
|
SQL 存储 运维
阿里云分布式关系型数据库服务 DRDS
DRDS 是阿里巴巴集团自主研发的分布式数据库中间件产品,专注于解决单机关系型数据库扩展性问题,具备轻量(无状态)、灵活、稳定、高效等特性,稳定运行11年,经历历届双十一核心交易业务和各类行业业务的考验
10205 0

热门文章

最新文章