HBase&Hive 2(二)|学习笔记

简介: 快速学习 HBase&Hive 2(二)

开发者学堂课程【高校精品课-上海交通大学-企业级应用体系架构:HBase&Hive 2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/75/detail/15847


HBase&Hive 2(二)

 

内容介绍:

一、Hive 是什么

二、读模式与写模式

三、artitions and buckets 分区和桶

四、常用的语法

五、云计算

 

四、常用的语法

1.Sorting and Aggregating 分类和聚合

image.png

例如从 records 2 这张表里面去两个属性的值,

image.png

我们说是要按 year 来进行排序升序的排序,把它们按照 year 升序温度降序的方式排序。但是要做分布的存储时,把它全部拿来之后按照 year 去找所有的记录。如果按照前面地方buckets 处理,我就按 year 的方式群组之后做排序,得到结果。

2.MapReduce Scripts 分类和聚合

MapReduce 提供了比较简单的 MapReduce 接口,可以在里面去写要做 map 或要做 reduce

image.png

上述表里面要去对 year ,  temperature ,  quality进行 map 在拿到年份温度以及质量之后,去对们这三列进行 map 而 map 的代码写在哪里?就写在这里,

image.png

接着针对它产生的输出,year ,  temperature reduce 可以在外部写两个文件,例如 Python 的文件去处理去执行 map 或 reduce 的动作。在 Hive 里加载下图两类代码

image.png

表里执行执行 MapReduce 。这是有关 Hive 的真正要运行,因为其在 HDFS 之上运行因此仍然是要运行。这是之前讲过的 hadoop 和上节课讲 HDFS 已经学过的。启动的命令运行都起来之后, hadoop home 要放到路径里面去,去运行下图的代码

image.png

这些这是一次性运行目的是建一些 Hive 相应的一些目录,进到下图里面。

image.png

值得注意的是它现在只能到 Java 1.8 更高的版本还不可以,进去之后就可以去执行刚才的逻辑了。

3.常见的报错信息

下图是一些常见的报错信息包括启动 Hive 时它报的一些错信息。因为它的 jdk 比较低,数据仓库没有再写 Java 代码而且读者在用时一般用得比较少。实际上要说明一下,在分布式的系统里面,有一些基本的概念就像刚才提到的,为什么要把它构建在 HDFS 之上?为什么它要有 buckets 为什么数据它导入之后没有马上去处理这些基本的概念在分布式的系统里面总会碰到。因此我们还是简单地讲一讲,那系统本身成功过一遍,按照前面的运行的顺序是可以把它运行下去的。这是上节课剩的一点有关 Hive知识。

image.png

相关文章
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
782 0
|
7月前
|
SQL 存储 分布式数据库
分布式存储数据恢复—hbase和hive数据库数据恢复案例
分布式存储数据恢复环境: 16台某品牌R730xd服务器节点,每台服务器节点上有数台虚拟机。 虚拟机上部署Hbase和Hive数据库。 分布式存储故障: 数据库底层文件被误删除,数据库不能使用。要求恢复hbase和hive数据库。
272 12
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
613 7
|
SQL JSON 算法
hive学习笔记
hive学习笔记
|
SQL 分布式数据库 HIVE
Hbase 和Hive表关联
Hbase 和Hive表关联
195 0
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
810 0
|
SQL 分布式数据库 HIVE
Hbase二级索引_Hive on Hbase 及phoenix详解
Hbase二级索引_Hive on Hbase 及phoenix详解
251 0
|
SQL 分布式计算 分布式数据库
HBase 和 Hive 你能分清楚吗?(转拉勾教育)
HBase 和 Hive 你能分清楚吗?(转拉勾教育)
440 0
|
存储 SQL 分布式数据库
分布式数据恢复-hbase+hive分布式存储数据恢复案例
hbase+hive分布式存储数据恢复环境: 16台某品牌R730XD服务器节点,每台物理服务器节点上有数台虚拟机,虚拟机上配置的分布式,上层部署hbase数据库+hive数据仓库。 hbase+hive分布式存储故障&初检: 数据库文件被误删除,数据库无法使用。 通过现场对该分布式环境的初步检测,发现虚拟机还可以正常启动,虚拟机里面的数据库块文件丢失。好在块文件丢失之后没有对集群环境写入数据,底层数据损坏可能性比较小。
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
394 1