大数据列式存储 Parquet 和 ORC 简介

简介: 目前,使用比较广泛的列式存储主要是 Apache Parquet 和 Apache ORC,Parquet 由谷歌的 Dremel 发展而来,由Twitter 贡献给社区,ORC 则是由 Hive 的 RC File 发展而来,从Hive项目中独立出来,二者目前都是比较活跃的列式存储项目。

背景

随着大数据 Hadoop/Spark 生态的不断发展和成熟,TextFile、CSV这些文本格式存储效率低,查询速度慢,往往不能很好地满足大数据系统中存储和查询的需求,列式存储也在大数据社区逐渐兴起到成熟。目前,使用比较广泛的列式存储主要是 Apache Parquet 和 Apache ORC,Parquet 由谷歌的 Dremel 发展而来,由Twitter 贡献给社区,ORC 则是由 Hive 的 RC File 发展而来,从Hive项目中独立出来,二者目前都是比较活跃的列式存储项目。

什么是列式存储

传统的数据编码方式是以行为单位进行,列式存储则是将数据划分成数据块,每个数据块内部按列的方式进行编码存储,通过使用列式存储会有以下好处:

  • 存储效率更高,因为同一列的数据类型一致,编码效率也会更高
  • 查询效率更高,利用列式存储的统计信息,可以跳过大量的数据,减少IO压力

Parquet 和 ORC的基本对比

image.png

Parquet 和 ORC的编码效率对比

什么是编码

列式存储在存储数据时,为了提高压缩效率,会进行一些编码操作,如图所示。

image.png

常见的编码方式

Run-length encoding(RLE)

Dictionary

Bitpacking

Zigzag for signed

Parquet 和 ORC编码对比

image.png

使用TPC数据集的测试结果

分别使用相同的 TPC 数据集进行测试,从压缩效率上讲,数据库大小越小,压缩效率越好。这里 ORC 使用 Zlib 压缩, Parquet 使用 Gzip 压缩。

TPC-BB and TPC-DS Decimal 版本下,ORC 比 Parquet 占用空间节省大约 10%;

TPC-DS Double版本下,Parquet 的使用的空间节省 2% 左右。

image.png

TPC-DS(Decimal Version): https://github.com/cloudera/impala-tpcds-kit
TPC-DS(Double Version): https://github.com/hortonworks/hive-testbench
TPCx-BB: http://www.tpc.org/tpcx-bb/

Parquet 和 ORC Encoding的实现细节对比

Parquet 的Integer编码实现

Parquet 的 Integer的是通过字典的编码方式存储的,为了防止字典过大,超过字典上限后,则通过其他方式存储。

image.png

PARQUET_V1 和 PARQUET_V2 是 Parquet 内部使用的版本,可以通过相应的参数进行选择。

Parquet 字典的实现

在实际存储时,数据库会有大量重复的值,这时字典的效率还是不错的,不够,目前的 Parquet实现还有两个问题

问题字典是明文存储,没有编码,浪费存储空间;

字典编号是使用RLE编码,但是编码效率还有提升空间。

image.png

Parquet 的 DeltaBinaryPacking

Parquet 的 DeltaBinaryPacking 的实现参考了以下博客,具体的格式如图。

http://lemire.me/blog/archives/2012/09/12/fast-integer-compression-decoding-billions-of-integers-per-second/

image.png

原始值:6,6,6,6,6,6,13,17
编码后:3,0,6,-2,13,17

ORC Integer 在 0.12的版本

HIVE在 0.12之后做了比较好的优化,可以覆盖常见的四种场景,效果也会比较好

SHORT_REPEAT : Short repeated integer sequences.

DELTA : Monotonically increasing or decreasing sequences, sequences with fixed delta values or long

1 sequences.

DIRECT : Random integer sequences whose number of bit requirement doesn't vary a lot

PATCHED_BASE : Random integer sequences whose number of bit requirement varies beyond a
threshold.

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
10月前
|
存储 JSON 分布式计算
数据湖,不“唬”你:这是大数据存储的新秩序!
数据湖,不“唬”你:这是大数据存储的新秩序!
217 2
|
10月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
465 0
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
1882 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
275 4
|
SQL 分布式计算 大数据
MaxCompute 聚簇优化推荐简介
在大数据计算中,Shuffle 是资源消耗最大的环节之一。MaxCompute 提供聚簇优化推荐功能,通过调整 Cluster 表结构,有效减少 Shuffle 量,显著提升作业性能并节省计算资源。实际案例显示,该功能可帮助用户每日节省数 PB 的 Shuffle 数据量及数千 CU 的计算成本。
322 0
|
存储 分布式计算 大数据
数据湖——大数据存储的新思维,如何打破传统束缚?
数据湖——大数据存储的新思维,如何打破传统束缚?
461 16
|
存储 算法 固态存储
大数据分区优化存储成本
大数据分区优化存储成本
446 4
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
509 4
|
存储 缓存 NoSQL
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
529 4
|
消息中间件 存储 缓存
大数据-71 Kafka 高级特性 物理存储 磁盘存储特性 如零拷贝、页缓存、mmp、sendfile
大数据-71 Kafka 高级特性 物理存储 磁盘存储特性 如零拷贝、页缓存、mmp、sendfile
378 3