47 Hive的数据存储

简介: 47 Hive的数据存储

1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)

2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。

3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。

  • db:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
  • table:在hdfs中表现所属db目录下一个文件夹
  • external table:外部表, 与table类似,不过其数据存放位置可以在任意指定路径
    普通表: 删除表后, hdfs上的文件都删了
    External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
  • partition:在hdfs中表现为table目录下的子目录
  • bucket:桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中
目录
相关文章
|
存储 SQL 分布式计算
一文彻底搞懂Hive的数据存储与压缩
怎样弄清Hive的数据存储与压缩呢,以下回答告诉你。
745 0
一文彻底搞懂Hive的数据存储与压缩
|
7月前
|
SQL 存储 关系型数据库
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
808 0
|
SQL 存储 关系型数据库
Hive 的数据存储单元结构
Hive 的数据存储单元结构
|
SQL 存储 数据库
Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)
1.1 Hive简介 1.1.1   什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.2   为什么使用Hive Ø  直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大   Ø  为什么要使用Hive 操作接口采用类SQ
26927 0
|
SQL 存储 分布式计算
大数据组件-Hive部署基于derby作为元数据存储
大数据组件-Hive部署基于derby作为元数据存储
大数据组件-Hive部署基于derby作为元数据存储
|
SQL 存储 分布式计算
大数据组件-Hive部署基于MySQL作为元数据存储
大数据组件-Hive部署基于MySQL作为元数据存储
大数据组件-Hive部署基于MySQL作为元数据存储
|
存储 SQL 数据库