Hive中文件存储格式及大小比较测试

简介: file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Available in Hive 0.

在hive中创建表是有如下一个语句

[ROW FORMAT row_format]

row_format 的类型有如下:

file_format:
: SEQUENCEFILE
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)
| RCFILE -- (Note: Available in Hive 0.6.0 and later)
| ORC -- (Note: Available in Hive 0.11.0 and later)
| PARQUET -- (Note: Available in Hive 0.13.0 and later)
| AVRO -- (Note: Available in Hive 0.14.0 and later)
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
默认是文本格式例如:


700

按照数据存储方式分类

官方文档地址
https://cwiki.apache.org/confluence/display/Hive/SerDe

按照行存储

SEQUENCEFILE
TEXTFILE

按照列存储

RCFILE
ORC
PARQUET

说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。

700

237

700

491

492
664

文件格式的压缩比较

参考文档http://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

700

实际业务我们是按照列来分析数据及使用数据的。

1、创建文本表

532

2、加载数据

700

image.png


700

3、查看创建OCR文件的格式

700

4、创建ocr文件

671

5、把文件表中的数据插入到OCR类型的表中

700

6、创建parquet类型的表并插入数据

700

7、查看文件大小

原始文本文件的大小
634
orc文件大小
602
partquet文件大小
651
目录
相关文章
|
2月前
|
存储 SQL Java
bigdata-18-Hive数据结构与存储格式
bigdata-18-Hive数据结构与存储格式
24 0
|
5月前
|
SQL 消息中间件 数据处理
DataX读取Hive Orc格式表丢失数据处理记录
DataX读取Hive Orc格式表丢失数据处理记录
135 0
|
7月前
|
存储 缓存 Linux
百度搜索:蓝易云【如何在Linux系统服务器中测试存储/磁盘I/O性能?】
这些工具可以帮助你测试磁盘的读取和写入性能,并提供各种性能指标和统计数据。请注意,在运行这些测试时,确保没有重要的数据存储在被测试的磁盘上,并谨慎操作以避免对系统和数据造成不必要的影响。
90 0
|
26天前
|
SQL 关系型数据库 MySQL
Hive【基础知识 02-1】【Hive CLI 命令行工具使用】【准备阶段-建库、建表、导入数据、编写测试SQL脚本并上传HDFS】
【4月更文挑战第7天】Hive【基础知识 02-1】【Hive CLI 命令行工具使用】【准备阶段-建库、建表、导入数据、编写测试SQL脚本并上传HDFS】
27 0
|
26天前
|
SQL 存储 分布式计算
Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
【4月更文挑战第6天】Hive【基础 01】核心概念+体系架构+数据类型+内容格式+存储格式+内外部表(部分图片来源于网络)
33 1
|
2月前
|
存储 Android开发 C++
【Android 从入门到出门】第五章:使用DataStore存储数据和测试
【Android 从入门到出门】第五章:使用DataStore存储数据和测试
48 3
|
9月前
|
SQL 存储 分布式计算
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
Hive学习---6、文件格式和压缩
|
5月前
|
存储 分布式计算 Hadoop
[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)
[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)
61 2
|
5月前
|
存储 大数据 Java
【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)
【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)
99 0
|
5月前
|
存储 测试技术 Linux
存储稳定性测试与数据一致性校验工具和系统
LBA tools are very useful for testing Storage stability and verifying DATA consistency, there are much better than FIO & vdbench's verifying functions.
930 0