创建ORC结果表

简介:

创建ORC结果表

ORC(Optimized Row Columnar)是Hadoop生态圈中的一种列式存储格式。ORC产生于2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据使用Protocol Buffers序列化,并且文件中的数据尽可能的压缩,以降低存储空间的消耗。目前ORC也被Spark SQL、Presto等查询引擎支持。但是Impala对于ORC目前没有支持,仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。

DDL定义

Flink支持使用ORC格式文件作为输出,示例代码如下。

 
   
  1. create table orc_source(
  2. id int,
  3. user_name VARCHAR,
  4. content VARCHAR,
  5. primary key(id)
  6. ) with (
  7. type='orc',
  8. filePath='hdfs://hdfshome/orcpath/test'
  9. );

WITH参数

参数 注释说明 备注
filePath 文件路径 目前支持hdfs、oss两种文件系统。
writeMode 默认为None
compressionCodecName 压缩格式
本文转自实时计算—— 创建ORC结果表
相关文章
|
6月前
|
SQL 消息中间件 数据处理
DataX读取Hive Orc格式表丢失数据处理记录
DataX读取Hive Orc格式表丢失数据处理记录
255 0
|
6月前
|
SQL 分布式计算 Hadoop
创建hive表并关联数据
创建hive表并关联数据
68 0
|
3月前
|
SQL 存储 算法
ads创建普通表详解
【8月更文挑战第12天】
75 1
|
6月前
|
SQL HIVE
Hive表删除数据不支持使用Delete From...
Hive表删除数据不支持使用Delete From...
271 0
|
SQL 存储 分布式计算
Hive学习---5、分区表和分桶表
Hive学习---5、分区表和分桶表
|
SQL 存储 HIVE
Hive 内部表和外部表对比
Hive 内部表和外部表区别
163 0
|
SQL Linux 数据库
Hive 表 DML 操作——Hive 表 DML 操作——第1关:将文件中的数据导入(Load)到 Hive 表中
Hive 表 DML 操作——Hive 表 DML 操作——第1关:将文件中的数据导入(Load)到 Hive 表中
1000 0
|
SQL 存储 分布式计算
Apache Hive--DDL--创建表--分桶表创建&分桶数据导入| 学习笔记
快速学习Apache Hive--DDL--创建表--分桶表创建&分桶数据导入
147 0
Apache Hive--DDL--创建表--分桶表创建&分桶数据导入| 学习笔记
|
SQL 存储 大数据
Apache Hive--DDL--创建表--分桶表总结&分桶表好处| 学习笔记
快速学习 Apache Hive--DDL--创建表--分桶表总结&分桶表好处
160 0
Apache Hive--DDL--创建表--分桶表总结&分桶表好处| 学习笔记
|
SQL 存储 Shell
hive:建库建表、表分区、内部表外部表、数据导入导出
hive:建库建表、表分区、内部表外部表、数据导入导出
468 0