Parquet 支持数据嵌套的列式数据存储格式

简介:
+关注继续查看

简介

        Apache Parquet 是一个列存储格式,主要用于 Hadoop 生态系统。对数据处理框架、数据模型和编程语言无关。Cloudera的大数据在线分析(OLAP)项目Impala中使用该格式作为列存储。

        Parquet是Twitter内部的列式存储,目前开源并将代码托管在 parquet-format

        Parquet是一种供Hadoop使用的列式存储格式。Parquet为Hadoop生态系统中的所有项目提供支持高效率压缩的列式数据表达,而且与数据处理框架、数据模型或编程语言都没有关系。

        正如Google Dremel一样,Parquet由许多复杂的嵌套的数据结构组成,并使用重复级别/定义级别(repetition/definition level )的方法来对数据结构进行编码。这种方法能够实现优秀的简单扁平的嵌套命名空间。

        Parquet支持对某一列数据进行压缩,未来还会实现更多的编码方式。将编码的概念与压缩分开,Parquet的用户可以直接对编码数据进行实施和操作,而不需要经历先解压再压缩的过程。

        Parquet被设计成可供任何人使用。Hadoop生态圈中有大量的数据处理框架,一个高效的、便于实施的列式存储模板应该为所有框架所用。

        提供了用于处理列式数据的Java构建块,和Hadoop输入/输出格式工具,Pig储存/加载,并集成了Parquet格式转换工具( parquet-mr)。

        Parquet metadata is encoded using Apache Thrift.

目录
相关文章
|
5月前
|
存储 算法 数据挖掘
行式存储和列式存储的区别
行式存储和列式存储的区别
134 0
|
5月前
|
SQL 存储 数据可视化
Hive 支持的文件存储格式(重点)
Hive 支持的文件存储格式(重点)
227 0
|
11月前
|
存储
C语句:数据存储(二)
C语句:数据存储(二)
47 0
C语句:数据存储(二)
|
11月前
|
存储
C语句:数据存储(一)
C语句:数据存储(一)
57 0
C语句:数据存储(一)
|
SQL 存储 HIVE
iceberg 分区是如何读写和维护
了解iceberg 分区的信息和数据维护,以及分区变更之后对数据读取到影响
iceberg 分区是如何读写和维护
|
存储 监控 数据库
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)
137 0
|
前端开发 数据库 数据库管理
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(一)
【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(一)
259 0
|
存储 大数据 Apache
Apache Cassandra SSTable 存储格式详解
在 Cassandra 中,当达到一定条件触发 flush 的时候,表对应的 Memtable 中的数据会被写入到这张表对应的数据目录(通过 data_file_directories 参数配置)中,并生成一个新的 SSTable(Sorted Strings Table,这个概念是从 Google 的 BigTable 借用的)。
2547 0