漫谈OceanBase 列式存储

2018-06-30 6316

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

简介： 列式存储主要的目的有两个：大部分OLAP查询只需要读取部分列而不是全部列数据，列式存储可以避免读取无用数据；将同一列的数据在物理上存放在一起，能够极大地提高数据压缩率。 OLAP和OLTP OLAP，也叫联机分析处理（Online Analytical Processing）系统，有的时候也叫DSS决策支持系统，就是我们说的数据仓库。

列式存储主要的目的有两个：

大部分OLAP查询只需要读取部分列而不是全部列数据，列式存储可以避免读取无用数据；
将同一列的数据在物理上存放在一起，能够极大地提高数据压缩率。

OLAP和OLTP

OLAP，也叫联机分析处理（Online Analytical Processing）系统，有的时候也叫DSS决策支持系统，就是我们说的数据仓库。在这样的系统中，语句的执行量不是考核标准，因为一条语句的执行时间可能会非常长，读取的数据也非常多。所以，在这样的系统中，考核的标准往往是磁盘子系统的吞吐量（带宽），如能达到多少MB/s的流量。

在OLAP系统中，常使用分区技术、并行技术。

分区技术在OLAP系统中的重要性主要体现在数据库管理上，比如数据库加载，可以通过分区交换的方式实现，备份可以通过备份分区表空间实现，删除数据可以通过分区进行删除，至于分区在性能上的影响，它可以使得一些大表的扫描变得很快（只扫描单个分区）。另外，如果分区结合并行的话，也可以使得整个表的扫描会变得很快。总之，分区主要的功能是管理上的方便性，它并不能绝对保证查询性能的提高，有时候分区会带来性能上的提高，有时候会降低。

在OLAP系统中，不需要使用绑定（BIND）变量，因为整个系统的执行量很小，分析时间对于执行时间来说，可以忽略，而且可避免出现错误的执行计划。但是OLAP中可以大量使用位图索引，物化视图，对于大的事务，尽量寻求速度上的优化，没有必要像OLTP要求快速提交，甚至要刻意减慢执行的速度。

绑定变量真正的用途是在OLTP系统中，这个系统通常有这样的特点，用户并发数很大，用户的请求十分密集，并且这些请求的SQL 大多数是可以重复使用的。

OLTP，也叫联机事务处理（Online Transaction Processing），表示事务性非常高的系统，一般都是高可用的在线系统，以小的事务以及小的查询为主，评估其系统的时候，一般看其每秒执行的Transaction以及Execute SQL的数量。在这样的系统中，单个数据库每秒处理的Transaction往往超过几百个，或者是几千个，Select 语句的执行量每秒几千甚至几万个。典型的OLTP系统有电子商务系统、银行、证券等，如美国eBay的业务数据库，就是很典型的OLTP数据库。

列组（Column Group）

OceanBase通过列组支持行列混合存储，每个列组存储多个经常一起访问的列。
OceanBase 列组设计
如上图所示，OceanBase SSTable首先按照列组存储，每个列组内部再按行存储。分为几种情况：

所有列属于同一个列组。数据在SSTable中按行存储，OLTP应用往往配置为这种方式。
每列对应一个列组。数据在SSTable中按列存储，这种方式在实际应用中比较少见。
每个列组对应一行数据的部分列。数据在SSTable中按行列混合存储，OLAP应用往往配置为这种方式。

OceanBase还允许一个列属于多个列组，通过冗余存储这些列，能够提高访问性能。例如，某表格总共包含5列，用户经常一起访问（1，3，5）或者（1，2，3，4）列。如果将（1，3，5）和（l，2，3，4）存储到两个列组中，那么，大部分访问只需要读取一个列组，避免了多个列组的合并操作。

列式存储提高了数据压缩比，然面，实践过程中我们发现，由于OceanBase最初的几个版本内存操作实现得不够精细，例如数据结构设计不合理，数据在内存中膨胀很多倍，导致大查询的性能瓶颈集中在CPU，列式存储的优势完全没有发挥出来。这就告诉我们，列式存储的前提是设计好内存数据结构，把CPU操作优化好，否则，后续的工作都是无用功。为了更好地支持OLAP应用，新版的OceanBase将重新设计列式存储引擎。

漫谈OceanBase 列式存储

OLAP和OLTP

列组（Column Group）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

漫谈OceanBase 列式存储

OLAP和OLTP

列组（Column Group）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像