一、Hive 支持哪些文件存储格式?
Hive 支持的文件储存格式主要有:TextFile、SequenceFile、ORC、Parquet
TextFile 格式:Hive 默认格式,数据默认不做压缩,并且磁盘开销大,数据解析开销大。可结合 Gzip、Bzip2 使用。
SequenceFile 格式:序列化文件,将数据以二进制格式编码,并且进行压缩,下载后不能直接查看,无法可视化。
Parquet 格式:Parquet 文件是以二进制方式存储的,不可以直接读取和修改,Parquet 文件是自解析的,文件中包括该文件的数据和元数据。
ORC 格式:和 Parquet 类似,也是以二进制方式存储的,不可以直接读取和修改,也是自解析的,包含很多元数据,这些元数据都是同构 ProtoBuffer 进行序列化的。
其中 TextFile、SequenceFile 为行式存储,ORC、Parquet 为列式存储。