开发者社区> 问答> 正文

Hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?

Hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?

展开
收起
芯在这 2021-12-11 23:20:14 906 0
1 条回答
写回答
取消 提交回答
  • TextFile:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。

    SequenceFile:Hadoop API提供的一种二进制文件支持,使用方便,可分割,可压缩,支持三种压缩,NONE,RECORD,BLOCK。

    RCFILE:是一种行列存储相结合的方式。首先,将数据按行分块,保证同一个record在同一个块上,避免读一个记录读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。数据加载的时候性能消耗大,但具有较好的压缩比和查询响应。

    企业中hive常用的数据存储格式是ORC格式,数据压缩格式是snappy

    2021-12-11 23:20:31
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载