大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计-阿里云开发者社区

大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

2019-05-20 5226

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HDFS：分布式、高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用，大规模的波若大数据平台（BR-odp）用户部署上1000台的HDFS集群。

波若大数据平台Hadoop + HDFS+Hive+Hbase大数据开发工具剖析：
hadoop大数据平台

HDFS：分布式、高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用，大规模的波若大数据平台（BR-odp）用户部署上1000台的HDFS集群。数据规模高达50PB以上

HDFS和MR共同组成Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统，MR在集群上实现了分布式计算和任务处理。HDFS在MR任务处理过程中提供了文件操作和存储等支持，MR在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成分布式集群的主要任务。

Hive：基于Hadoop的一个数据仓库工具，Hive构建在HDFS之上，它提供了一系列的工具，用来进行数据提取、转换、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制可以将结构化的数据文件映射为一张数据库表，并提供类sql查询功能，可以将sql语句转换为MapReduce/Tez任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的数据统计，不必开发专门的MapReduce应用，十分适合数据仓库离线的统计分析。
Hadoop大数据平台

HBase：分布式的、面向列的开源数据库,HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase对上百亿条，上百万列的数据表能够提供实时的访问。

波若大数据平台，Hadoop分布式计算平台的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase等核心技术的应用，实现对大规模海量数据的高效、便捷的数据计算、存储、分析等实用价值。

大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

热门文章

最新文章

相关课程

相关电子书