大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计-阿里云开发者社区

大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

2019-05-20 4498

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HDFS：分布式、高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用，大规模的波若大数据平台（BR-odp）用户部署上1000台的HDFS集群。

波若大数据平台Hadoop + HDFS+Hive+Hbase大数据开发工具剖析：
hadoop大数据平台

HDFS：分布式、高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用，大规模的波若大数据平台（BR-odp）用户部署上1000台的HDFS集群。数据规模高达50PB以上

HDFS和MR共同组成Hadoop分布式系统体系结构的核心。HDFS在集群上实现了分布式文件系统，MR在集群上实现了分布式计算和任务处理。HDFS在MR任务处理过程中提供了文件操作和存储等支持，MR在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成分布式集群的主要任务。

Hive：基于Hadoop的一个数据仓库工具，Hive构建在HDFS之上，它提供了一系列的工具，用来进行数据提取、转换、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制可以将结构化的数据文件映射为一张数据库表，并提供类sql查询功能，可以将sql语句转换为MapReduce/Tez任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的数据统计，不必开发专门的MapReduce应用，十分适合数据仓库离线的统计分析。
Hadoop大数据平台

HBase：分布式的、面向列的开源数据库,HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase对上百亿条，上百万列的数据表能够提供实时的访问。

波若大数据平台，Hadoop分布式计算平台的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase等核心技术的应用，实现对大规模海量数据的高效、便捷的数据计算、存储、分析等实用价值。

相关实践学习

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

热门文章

最新文章

相关课程

相关电子书

相关实验场景