HBase&Hive 2(三)|学习笔记

简介: 快速学习 HBase&Hive 2(三)

开发者学堂课程【高校精品课-上海交通大学-企业级应用体系架构:HBase&Hive 2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/75/detail/15847


HBase&Hive 2(三)

 

内容介绍:

一、Hive 是什么

二、读模式与写模式

三、artitions and buckets 分区和桶

四、常用的语法

五、云计算

 

五、云计算

下图是我们之前看到过的那个 MapReduce  data 分布式文件系统。

image.png

最后的 percolator 是我在讲提了一下,把它放到这里。上节课我提到过 hbase 里面的事务处理不理想提出的 percolator如何去处理的?我们谈谈边缘计算是什么?云边融合,边缘计算指的是什么

1.什么是云计算

image.png

下面是一篇云计算的论文,为什么它比较经典,因为的作者称为 Ian Foster 最早的分布式的系统还有网格计算就是 Ian Foster 提出来。那网格计算词是什么意思?最初 Ian Foster 他们那一代人们想的互联网上大规模的并发的分布式的计算场景,应该是人人都把电脑挂在互联网上,当要用互联联网,就去把任务提交。但就会去找这些在挂到互联网上的这些机器,谁有空闲资源就让谁做一种人人为我,我为人人的状态即你的机器空闲也要能接受别人提交的请求拿来以后进行处理。

像我们说的输电线的电网,电网是把插头插在插座上,不用担心电从哪里来Ian Foster 希望所有的计算资源能够像方式一样去执行共享。想法虽然好,但实际上推广不开,因为并不是所有人都愿意把电脑一直挂在网上供别人使用。于是就会有一些大公司出面提供大量的电脑做成集群,往外提供服务像云一样,里面到底有什么样的物理机?到底的应运行在哪里,都不用在意。一方面是在云端远程资源共享,不用去关心它在哪里。第二点云里面是看不进去的,对来说像是灰色,应用今天在云里面的这一台机器上运行着,明天一般就迁移到另外一台机器了。那到底怎么迁?这是云提供商,它根据它的策略去提供是去执行的。但是整个这件事对来说是透明的,对使用者来说是无感。应用总是在云里面在运行,不会有什么其的问题。当这台机器崩,它会自动迁移到另外一台机器上去。因此提出这样的一种计算方式不需要人把自己的电脑挂在互联网给别人去共享,因此它更容易被接受。

大公司把资源暴露出来给用户使用,那只要付少量的钱去租用,就实现了的就去租用它的系统,等于就掌握了计算资源。于是 Ian Foster 就发现云计算能推广开网格计算推广不开,经过全方位的对比。 Ian Foster 就提出来,在看到的云集算是大规模的分布式计算场景。要强调的资源虚拟化,动态可扩展。当的资源不够,可以添加新的计算资源,所有的计算能力全部是新受云中心管理的。包括 CPU 存储平台,还有服务等等,这是的观点。至少是在眼里看到这些硬件和软件的东西以服务的方式暴露出来,给大家去共享。

image.png

底下是伯克利写的文章,年代也比较久远,在云计算刚出来他提出了云之上的概念他认为云其实通过互联网把在数据中心里面持有的大量的硬件和上面安装的系统软件,通过互联网的方式以服务的形式暴露出去给别人用。描述了它的具体的技术路线和他的实现方案。需要有大量的计算资源,一般硬件,甚至是软件。这些软件里面提供了一些服务,它们整个通过互联网的方式暴露出去,无论是硬件平台还是软件,全都以服务的形式暴露出去,即为云计算。

因此如果是软件,那么 SaaS 如果是硬件,就看具体是何种硬件,是要纯粹的硬件 infrastructure 只暴露服务器,如果是平台,给计算机装好系统之后即不为裸机,只有操作系统例如中间件、数据库,全部都装好,甚至是这些本身是本机器提供的服务,在机器里可以使用这就是平台级服务。如果平台把软件都提供出来,那就软件级服务,总之要通过互联网能够被共享,这是第二个观点。

image.png

第三个 ACM 美国计算机协会,他是在云计算上的技术专家组提出来认为云计算核心资源共享,所有的资源具有无限的可扩展性,放到云里不用担心资源不够。这是理想状态,理论上它肯定有上限但是对于用户来说,就像想要资源它就有可以做增量式的长。因此在云计算的云里面去租借了系统之后,当的资就资源不够,例如随着业务的增长,需要更多资源,它可以给提供无限的可扩展性,这就是他们对云计算的定义

三个定义有个共同点就在于资源共享,不过资源到底是软件还是硬件还是平台,要去限定,因为它有多样性

资源共享,而且它就在远端是通过网络去共享,这所谓的云。现在看到的所有云都是以上三种形态,例如阿里云、百度云,它都不在我本地都在远程,我可以使用上面的云网盘或者是它上面的虚拟机,把们的资源共享出来给我。共享是需要收费的,但是总比去买一台计算机或者是买很大的网盘,很大的硬盘去存储的数据要便宜,并且它更安全。不用担心硬盘会不会坏,服务器会不会崩,出现情况,它会自动地把我的数据和服务器迁移,因此它的可靠性提高,这所谓的云。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
248 0
|
6月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
260 7
|
6月前
|
SQL JSON 算法
hive学习笔记
hive学习笔记
|
6月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.16 安装HBase
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
137 1
Hadoop学习笔记(HDP)-Part.16 安装HBase
|
6月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.15 安装HIVE
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
201 1
Hadoop学习笔记(HDP)-Part.15 安装HIVE
|
6月前
|
SQL 分布式数据库 HIVE
Hbase 和Hive表关联
Hbase 和Hive表关联
74 0
|
6月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
531 0
|
6月前
|
SQL 分布式数据库 HIVE
Hbase二级索引_Hive on Hbase 及phoenix详解
Hbase二级索引_Hive on Hbase 及phoenix详解
77 0
|
6月前
|
SQL 分布式计算 分布式数据库
HBase 和 Hive 你能分清楚吗?(转拉勾教育)
HBase 和 Hive 你能分清楚吗?(转拉勾教育)
77 0
|
11月前
|
存储 SQL 分布式数据库
分布式数据恢复-hbase+hive分布式存储数据恢复案例
hbase+hive分布式存储数据恢复环境: 16台某品牌R730XD服务器节点,每台物理服务器节点上有数台虚拟机,虚拟机上配置的分布式,上层部署hbase数据库+hive数据仓库。 hbase+hive分布式存储故障&初检: 数据库文件被误删除,数据库无法使用。 通过现场对该分布式环境的初步检测,发现虚拟机还可以正常启动,虚拟机里面的数据库块文件丢失。好在块文件丢失之后没有对集群环境写入数据,底层数据损坏可能性比较小。