Hive中文件存储格式及大小比较测试

简介: file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Available in Hive 0.
+关注继续查看

在hive中创建表是有如下一个语句

[ROW FORMAT row_format]

row_format 的类型有如下:

file_format:
: SEQUENCEFILE
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)
| RCFILE -- (Note: Available in Hive 0.6.0 and later)
| ORC -- (Note: Available in Hive 0.11.0 and later)
| PARQUET -- (Note: Available in Hive 0.13.0 and later)
| AVRO -- (Note: Available in Hive 0.14.0 and later)
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
默认是文本格式例如:


700

按照数据存储方式分类

官方文档地址
https://cwiki.apache.org/confluence/display/Hive/SerDe

按照行存储

SEQUENCEFILE
TEXTFILE

按照列存储

RCFILE
ORC
PARQUET

说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。

700

237

700

491

492
664

文件格式的压缩比较

参考文档http://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

700

实际业务我们是按照列来分析数据及使用数据的。

1、创建文本表

532

2、加载数据

700

image.png


700

3、查看创建OCR文件的格式

700

4、创建ocr文件

671

5、把文件表中的数据插入到OCR类型的表中

700

6、创建parquet类型的表并插入数据

700

7、查看文件大小

原始文本文件的大小
634
orc文件大小
602
partquet文件大小
651
目录
相关文章
|
6月前
|
Java 测试技术
|
9月前
|
SQL 分布式计算 运维
【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档
上一篇文章介绍了sqoop全量同步数据到hive, 本片文章将通过实验详细介绍如何增量同步数据到hive,以及sqoop job与crontab定时结合无密码登录的增量同步实现方法。
【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档
|
10月前
|
XML 测试技术 数据安全/隐私保护
【SoapUI、Postman、WebServiceStudio、Jmeter】接口测试工具结合测试webservice接口(发送XML格式参数)
【SoapUI、Postman、WebServiceStudio、Jmeter】接口测试工具结合测试webservice接口(发送XML格式参数)
193 0
|
11月前
|
Java
摄像头NV21格式转RGB的JAVA代码,测试正确
摄像头NV21格式转RGB的JAVA代码,测试正确
156 0
|
SQL 安全 关系型数据库
配置和启动测试 HIVE|学习笔记
快速学习配置和启动测试 HIVE
110 0
配置和启动测试 HIVE|学习笔记
|
SQL JSON 分布式计算
Linux安装Hive并测试
Linux安装Hive并测试
336 0
Linux安装Hive并测试
|
SQL Unix Java
Apache Hive--内置运算符函数&dual测试方式| 学习笔记
快速学习 Apache Hive--内置运算符函数&dual测试方式
132 0
|
测试技术 API Android开发
【Android 高性能音频】OboeTester 音频性能测试应用 ( Oboe 输出测试参数 | API 选择 | 音频输出设备选择 | 采样率 | 通道 | 采样格式 | 播放偏好 )(二)
【Android 高性能音频】OboeTester 音频性能测试应用 ( Oboe 输出测试参数 | API 选择 | 音频输出设备选择 | 采样率 | 通道 | 采样格式 | 播放偏好 )(二)
190 0
【Android 高性能音频】OboeTester 音频性能测试应用 ( Oboe 输出测试参数 | API 选择 | 音频输出设备选择 | 采样率 | 通道 | 采样格式 | 播放偏好 )(二)
|
测试技术 API Android开发
【Android 高性能音频】OboeTester 音频性能测试应用 ( Oboe 输出测试参数 | API 选择 | 音频输出设备选择 | 采样率 | 通道 | 采样格式 | 播放偏好 )(一)
【Android 高性能音频】OboeTester 音频性能测试应用 ( Oboe 输出测试参数 | API 选择 | 音频输出设备选择 | 采样率 | 通道 | 采样格式 | 播放偏好 )(一)
211 0
【Android 高性能音频】OboeTester 音频性能测试应用 ( Oboe 输出测试参数 | API 选择 | 音频输出设备选择 | 采样率 | 通道 | 采样格式 | 播放偏好 )(一)
|
SQL 资源调度 分布式计算
hive 数据源、yarn 集群测试、SQL 分组取 topN3| 学习笔记
快速学习 hive 数据源、 yarn 集群测试、SQL 分组取 topN3
102 0
热门文章
最新文章
推荐文章
更多