Hadoop三大发行版本

简介: Apache 企业实际使用并不多。最原始(基础)版本。这是学习hadoop的基础。 cloudera 对hadoop的升级,打包,开发了很多框架。

Apache

  • 企业实际使用并不多。最原始(基础)版本。这是学习hadoop的基础。

cloudera

  • 对hadoop的升级,打包,开发了很多框架。flume、hue、impala都是这个公司开发
  • 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提 供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训。
  • 2009年Hadoop的创始人 Doug Cutting也加盟 Cloudera公司。Cloudera 产品主要 为 CDH,Cloudera Manager,Cloudera Support
  • CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全 性,稳定性上有所增强。
  • Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署 好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即 是对Hadoop的技术支持。
  • Cloudera 的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大 数据的Impala项目。

Hortonworks

  • 2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建
  • 公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工 程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop 80%的代码。
  • 雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任
    Hortonworks的首席执行官。
  • Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开 源的产品,HDP除常见的项目外还包含了Ambari,一款开源的安装和管理系统
  • HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook 开源的Hive中
    。Hortonworks的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提 供了一个非常好的,易于使用的沙盒。
  • Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能 够在包括Windows Server和Windows Azure在内的Microsoft Windows平台上本地 运行。定价以集群为基础,每10个节点每年为12500美元。

版本选择(使用cloudera产品。使用Hortonworks文档)

700

image.png

目录
相关文章
|
2月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
65 0
|
SQL 消息中间件 分布式计算
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
670 0
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
|
8月前
|
分布式计算 资源调度 Hadoop
【Flink】版本 1.13+ 集成 Hadoop 问题
【Flink】版本 1.13+ 集成 Hadoop 问题
247 0
|
存储 SQL 分布式计算
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
高可靠性、高扩展性、高效性、高容错性YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三者关系、1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。MapReduce将计算过程分为两个阶段:
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
|
SQL 分布式计算 资源调度
spark 3.1.x支持(兼容)hive 1.2.x以及hadoop cdh版本的尝试
spark 3.1.x支持(兼容)hive 1.2.x以及hadoop cdh版本的尝试
863 0
|
分布式计算 自然语言处理 Hadoop
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
120 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
|
存储 分布式计算 资源调度
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
173 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
|
Java 大数据 测试技术
|
大数据 数据库 分布式计算
大数据(一) - hadoop生态系统及版本演化
大数据系列文章汇总链接 - 更新到15篇 HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务            HDFS源自于Google的GFS论文 (发表于2003年10月 ),是GFS克隆版YARN...
2142 0

相关实验场景

更多