HBase&Hive 2(二)|学习笔记

简介: 快速学习 HBase&Hive 2(二)

开发者学堂课程【高校精品课-上海交通大学-企业级应用体系架构:HBase&Hive 2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/75/detail/15847


HBase&Hive 2(二)

 

内容介绍:

一、Hive 是什么

二、读模式与写模式

三、artitions and buckets 分区和桶

四、常用的语法

五、云计算

 

四、常用的语法

1.Sorting and Aggregating 分类和聚合

image.png

例如从 records 2 这张表里面去两个属性的值,

image.png

我们说是要按 year 来进行排序升序的排序,把它们按照 year 升序温度降序的方式排序。但是要做分布的存储时,把它全部拿来之后按照 year 去找所有的记录。如果按照前面地方buckets 处理,我就按 year 的方式群组之后做排序,得到结果。

2.MapReduce Scripts 分类和聚合

MapReduce 提供了比较简单的 MapReduce 接口,可以在里面去写要做 map 或要做 reduce

image.png

上述表里面要去对 year ,  temperature ,  quality进行 map 在拿到年份温度以及质量之后,去对们这三列进行 map 而 map 的代码写在哪里?就写在这里,

image.png

接着针对它产生的输出,year ,  temperature reduce 可以在外部写两个文件,例如 Python 的文件去处理去执行 map 或 reduce 的动作。在 Hive 里加载下图两类代码

image.png

表里执行执行 MapReduce 。这是有关 Hive 的真正要运行,因为其在 HDFS 之上运行因此仍然是要运行。这是之前讲过的 hadoop 和上节课讲 HDFS 已经学过的。启动的命令运行都起来之后, hadoop home 要放到路径里面去,去运行下图的代码

image.png

这些这是一次性运行目的是建一些 Hive 相应的一些目录,进到下图里面。

image.png

值得注意的是它现在只能到 Java 1.8 更高的版本还不可以,进去之后就可以去执行刚才的逻辑了。

3.常见的报错信息

下图是一些常见的报错信息包括启动 Hive 时它报的一些错信息。因为它的 jdk 比较低,数据仓库没有再写 Java 代码而且读者在用时一般用得比较少。实际上要说明一下,在分布式的系统里面,有一些基本的概念就像刚才提到的,为什么要把它构建在 HDFS 之上?为什么它要有 buckets 为什么数据它导入之后没有马上去处理这些基本的概念在分布式的系统里面总会碰到。因此我们还是简单地讲一讲,那系统本身成功过一遍,按照前面的运行的顺序是可以把它运行下去的。这是上节课剩的一点有关 Hive知识。

image.png

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
9月前
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
143 0
|
2月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
133 7
|
2月前
|
SQL JSON 算法
hive学习笔记
hive学习笔记
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.16 安装HBase
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
95 1
Hadoop学习笔记(HDP)-Part.16 安装HBase
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.15 安装HIVE
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
132 1
Hadoop学习笔记(HDP)-Part.15 安装HIVE
|
2月前
|
SQL 分布式数据库 HIVE
Hbase 和Hive表关联
Hbase 和Hive表关联
54 0
|
2月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
336 0
|
2月前
|
SQL 分布式数据库 HIVE
Hbase二级索引_Hive on Hbase 及phoenix详解
Hbase二级索引_Hive on Hbase 及phoenix详解
50 0
|
2月前
|
SQL 分布式计算 分布式数据库
HBase 和 Hive 你能分清楚吗?(转拉勾教育)
HBase 和 Hive 你能分清楚吗?(转拉勾教育)
44 0
|
7月前
|
存储 SQL 分布式数据库
分布式数据恢复-hbase+hive分布式存储数据恢复案例
hbase+hive分布式存储数据恢复环境: 16台某品牌R730XD服务器节点,每台物理服务器节点上有数台虚拟机,虚拟机上配置的分布式,上层部署hbase数据库+hive数据仓库。 hbase+hive分布式存储故障&初检: 数据库文件被误删除,数据库无法使用。 通过现场对该分布式环境的初步检测,发现虚拟机还可以正常启动,虚拟机里面的数据库块文件丢失。好在块文件丢失之后没有对集群环境写入数据,底层数据损坏可能性比较小。