hadoop的概念

简介:

hadoop的概念

网上会经常遇到各种hadoop的概念,Hive,HBase,Hdfs都各是什么呢?

首先从hdfs说起,hdfs是分布式文件系统,它把集群当作单机一样做文件操作,文件可能存在于多个机器上,具体的存储细节会对使用者隐藏。

map_reduce是一个计算框架,google提出的,用于大规模数据计算,它们的主要思想,是从函数式编程中借来的特性。

hdfs和map_reduce统称为我们常说的Hadoop架构,这个架构能存储PB级别的数据,也能进行成千上万的独立计算。

好,现在已经有了这个框架了,这个框架包含了底层的存储结构,但是却并不是那么好用,我们大家还是擅长于使用sql语句来进行数据精炼,查询和分析的。这个时候,就出现了Hive。Hive的功能是把sql语句解析成map_reduce的计算任务,当然这样的拆分会导致查询变慢,可能一个sql查询需要分钟甚至小时级别的,不像mysql那样秒级以内查询出结果。

基于Hadoop框架,Powerset公司提出了另外一种非关系行分布式数据库HBase。它是使用JAVA实现的,最大的特点是基于列存储的。列存储的好处是什么?列存储就是把不同行相同的数据存储在一起,这样比如有的行没有的属性,在行存储中还需要留空余空间,但是在列存储中就完全不需要。列存储也能把相同属性的字段存储在一起,这样对数据压缩也有好处。所以列存储很适合大数据领域。

我们经常看到文章比较HBase和Hive,一般都是比较他们的查询效率,其实他们并不是一个维度的东西。HBase的查询效率会优于Hive,而Hive一般用于做离线的数据分析。

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
11天前
|
存储 分布式计算 并行计算
Hadoop的特性
【4月更文挑战第12天】Hadoop,一个开源的分布式计算框架,以其可靠性(数据在多节点备份,防故障)、可扩展性(易于扩展到大量服务器)、高性能(MapReduce并行计算)、易用性(简单API和工具)和开源性(自由获取和定制)著称。核心组件包括HDFS(存储海量数据)、MapReduce(并行计算)。Hadoop在大数据处理中扮演关键角色,简化并优化大规模数据处理任务。
10 1
|
11天前
|
存储 分布式计算 Hadoop
Hadoop的优点
【4月更文挑战第12天】Hadoop是Apache基金会的分布式系统框架,专注于大数据存储和处理。它提供高可靠性(数据冗余和故障恢复)、高扩展性(水平扩展至大量服务器)、高效性(使用MapReduce并行计算)、成本效益(开源且可在廉价硬件上运行)以及对多种数据类型的支持。Hadoop还拥有丰富的生态系统和工具,但面临安全挑战及学习难度,需根据需求谨慎使用。
10 1
|
存储 分布式计算 监控
Hadoop, Hadoop涉及到的一些常见概念(分布式与集群、HDFS、MapReduce等),Hadoop怎么用?
Hadoop, Hadoop涉及到的一些常见概念(分布式与集群、HDFS、MapReduce等),Hadoop怎么用?
427 0
|
存储 机器学习/深度学习 SQL
学完了Hadoop,我总结了这些重点
学完了Hadoop,我总结了这些重点
141 0
学完了Hadoop,我总结了这些重点
|
存储 分布式计算 资源调度
Hadoop1.x 和 Hadoop2.x 的区别|学习笔记
快速学习 Hadoop1.x 和 Hadoop2.x 的区别
265 0
Hadoop1.x 和 Hadoop2.x 的区别|学习笔记
|
存储 分布式计算 资源调度
从 hadoop 1.0 到 hadoop 2.0 的演化
Hadoop 1.0 到 Hadoop 2.0 的演化是怎样的呢,从中我们又能学到什么。。。
1304 0
|
分布式计算 Hadoop Java
|
分布式计算 Java Hadoop
学习hadoop需要什么基础
“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难!
1937 0
|
SQL 存储 分布式计算
|
存储 分布式计算 Hadoop
Hadoop概念
Hadoop概念
1002 0

相关实验场景

更多