你必须知道的9大Hadoop公司

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如果你有大量的数据,那么Hadoop已然,或者即将应当进入你的视野。 当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖,现在已经逐渐渗透到众多企业中。原因主要有以下两点:1)企业也在产生越来越多需要管理的数据,而Hadoop是一个非常棒的平台,特别是它能够合并遗留的旧数据,新数据和非结构化的数据。

如果你有大量的数据,那么Hadoop已然,或者即将应当进入你的视野。

当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖,现在已经逐渐渗透到众多企业中。原因主要有以下两点:1)企业也在产生越来越多需要管理的数据,而Hadoop是一个非常棒的平台,特别是它能够合并遗留的旧数据,新数据和非结构化的数据。2)很多的围绕Hadoop提供支持和服务的供应商出现,促使Hadoop更适用于企业;

“Hadoop作为一个开源平台自由成长,深入到企业数据管理架构中势不可挡”,Forrester的分析师MikeGualtieri和Noel Yuhanna在其针对Hadoop市场波动报告中写到。“相信Hadoop会是一个大型企业必备的数据平台,它是未来灵活的数据管理平台的基石。如果你有大量的结构化、非结构化,甚至是二进制数据,那么你的企业就和Hadoop有完美的契合点”。

那么我们该从哪里开始?Forrester会告诉你,有许多地方可以帮助你开始应用Hadoop,他们已经对9个提供Hadoop的公司进行评估,找到每一家公司的优劣势。Forrester总结在这方面没有特别清晰的市场领军,一些相对年轻的公司会追随科技巨头的脚步,为用户提供有竞争力的服务。

首先,关于Hadoop的背景介绍:Hadoop是一个开源的Apache项目,每个人都可以自由下载核心代码,包括Hadoop Common,Hadoop分布式文件系统,Hadoop YARN, 和 HadoopMapReduce。很多公司,从IBM到亚马逊、微软、Terada,都将Hadoop打包成更加易于使用的分布式系统或者服务中。每家公司都会有一些不同的战略,但是关键的区别是Hadoop有能力在可能几千台服务器中分配工作负载,使大数据成为可管理的数据。

备注:以下公司列表基于Forrester的市场波动报告,并未囊括所有的Hadoop和大数据管理平台。列表顺序按公司首字母排列。

亚马逊网页服务(Amazon Web Service,“AMS”)

如果客户想要寻找在公有云上提供的Hadoop平台,那你马上就会发现Forrester称之为“云中之王”的这家公司—亚马逊网页服务(AWS)。这家公司的Hadoop产品叫做“Elastic Map Reduce (EMR)”,AWS称,EMR就是他们使用Hadoop提供的大数据服务,当然他不是一个纯粹的开源Hadoop,它是为跑在AWS的云上特别定制的。

Forrester提到的EMR是市场上应用最广的Hadoop平台,EMR已经拥有多家合作伙伴并为其提供平台以外的额外服务,例如对数据进行查询、建模、集成和管理。根据Forrester的报告称,AWS正在经行更大的创新,从它的发展路线图可以看到,EMR将具备更强的能力,例如它可以自动扩展,根据工作负载情况调整大小。此外AWS还计划连同其他产品和服务,包括RedShift数据仓库,及最新发布的Kenesis实时处理引擎,为EMR提供更强大的支持,并且已经有计划提供NoSQL数据库和商业智能工具的支持。AWS所没有的是用户本地部署的Hadoop分布式系统,这恰恰是后面这两家公司的专长。

Cloudera

Cloudera拥有开源分布式的Hadoop,使用的Apache项目中的很多方面,但同时也在其基础之上做了很大的改进。Cloudera已经为它的产品开发了很多功能,从名为“Cloudera manager”的管理和监控工具,到名为“Impala”的运行在Hadoop上的SQL引擎。Cloudera使用开源Hadoop作为其分布式系统的基础,但它不是一个纯开源的产品。当Cloudera的用户需要一些开源Hadoop所没有的功能,他们就会开发或者找有相应的功能的合作伙伴。“Cloudera创新的手法在忠于Hadoop核心的同时尽力满足客户需求,这是他们有别于其他数据服务供应商的特点。”Forrester称。有超过200个付费用户稳定的运行在Cloudera平台上,有一些用户在其平台上管理1000多个节点超过1PB的数据。

Hortonworks

和Cloudera一样,Hortonworks也是一家只做Hadoop的公司。不同于Cloudera的是,Hortonworks比其他任何一家供应商对于开源Hadoop的粘性更高。Hortonworks的目标是构建Hadoop的生态系统和用户群,同时改善开源代码。它的平台紧紧绑定开源代码,公司官方称这对用户来说非常有益,因为其用户不必完全绑定在数据服务商身上。意思是说,如果Hortonworks的用户确实需要离开他们的平台,那他们可以轻松的把应用程序从Hortonworks平台迁移走。当然,这也不是说他们在开源平台上没有创新。公司把他们有对于平台的开发工作全部给到开源社区,以Ambri为例,它就是Hortonworks开发的用于进行集群管理的工具。Hortonworks的这一举措使它和很多的供应商像Teradata、微软、红帽和SAP建立了非常强的合作伙伴关系。

IBM

当企业考虑大的IT项目时,大都会想到IBM。正因为如此,IBM成为Hadoop项目服务在全球最大的供应商。 Forrester称IBM已经有超过100个Hadoop部署用户,且很多用户都是PB级别的数据。公司将其在网格计算、全球数据中心和企业级部署的丰富经验应用到大数据项目。“IBM的路线图看得出他们正在将IBM已有的产品和BigInsights Hadoop解决方案进行集成,这些已有产品包括SPSS的高级分析工具,用于高性能计算的负载管理,商业智能工具和数据挖掘工具等,”Forrester提到。

Intel

和AWS一样,英特尔也利用并优化了Hadoop版本,使其能够更好的运行在英特尔的硬件上,特别是志强芯片。对于那些一直努力突破Hadoop系统的限制,希望在软件和硬件之间找到最佳平衡点的用户来说,英特尔的Hadoop分布式系统应该最为适用。Forrester提到英特尔最近刚发布这个产品,并已投放市场了,所以很期待他们能够在现有版本基础上有所创新。在所有其他7家“领导者”地位的公司行列中,英特尔和微软在Hadoop市场更能被称为“表现强劲”。

MapR Technologies

MapR Technologies可能是最好的Hadoop分布式系统公司,但很多人都没有听说过这家公司。在Forrester用以编写波动报告而调查的Hadoop用户反馈中,MapR以其在分布式架构和数据处理能力方面获得用户评分最高。这家公司的秘诀是他们拥有一套已经做到了现有的Hadoop版本中的特有功能。例如,MapR的分布式支持NFS,此外,MapR还在它的分布式系统中构建了灾难恢复和高可用的特性。Forrester称在Hadoop市场,MapR只不过没有像Cloudera和Hortonworks那样的品牌认知度,但是随着更多合作伙伴的加入和市场营销的增强,MapR已经逐渐成为主流的Hadoop公司。

Microsoft

微软历来不是一家会拥抱开源软件的公司,但是在这件事情上,他们不但让Hadoop跑在了Windows的机器上,而且还把代码提供给开源项目,以促进Hadoop的生态系统更广泛的发展。这个工作的成果已经体现在微软公有云Azure上的Hadoop产品中。他是一个基于Hortonworks的分布式平台,在Azure上定制的“Hadoop即服务”的产品。

微软还有一些其他的项目,包括“Polybase”,能够实现通过熟悉的SQL语句查询Hadoop的数据的能力。据Forrester的报道,“微软通过在数据库、数据仓库、云计算、OLAP、商业智能、工作表、协同和开发工具方面的优势,不断为微软用户增加在Hadoop方面的能力”。如英特尔一样,微软也被认为是“表现强劲”,但还不是市场的领导者。

Pivotal Software

去年EMC和VMware双方出资从原有公司独立出来成立了Pivotal公司,Pivotal做的主要业务之一就是Hadoop分布式系统,此外还有云上的PaaS服务(Cloud Foundry PaaS)。Pivotal在开源代码之上增加了很多的工具,特别是一个SQL引擎,叫做“HAWQ”,和专为运行大数据平台而定制的Hadoop一体机。Forrester称Pivotal的Hadoop平台最大的优势就是它能够将其分布式系统和其他Pivotal,EMC和VMware的产品集成,然而,根据Forrester的报道,这家公司目前只有不到100个用户,而且大部分都是中型用户。

Teradata

像Teradata这样的公司抑或将Hadoop视为威胁或者视为机会,公司专注在数据管理,特别是SQL和关系型数据库方面。因此像Hadoop这样的NoSQL平台的崛起可能会对公司产生威胁。然而,Teradata还是拥抱了Hadoop。通过和Hortonworks合作,Teradata现在已经将Hadoop平台集成到现有SQL系统中,给现有的Terada用户一个即插即用的Hadoop平台,它能够和已经存在于Teradata数据仓库中的数据无缝集成。


原文发布时间为:2014-04-17


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
分布式计算 搜索推荐 Hadoop
03 Hadoop国内外应用案例介绍
03 Hadoop国内外应用案例介绍
381 0
|
存储 SQL 分布式计算
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
高可靠性、高扩展性、高效性、高容错性YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三者关系、1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。MapReduce将计算过程分为两个阶段:
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
|
机器学习/深度学习 存储 分布式计算
从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解
从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解
570 0
从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解
|
存储 分布式计算 自然语言处理
Hadoop生态之Mapreduce
Hadoop生态之Mapreduce
212 0
|
存储 分布式计算 并行计算
【Hadoop学习笔记】——Hadoop基础
当前时代是数据爆炸的时代,全球各个网站、电子设备等都在源源不断地产生着大量数据.2006年数字世界项目统计得出全球数据总量为0.18ZB,2011年全球数据量1.8ZB,2013全球数据量4.4ZB,2014年全球数据总量在6.2ZB左右,2015年全球数据总量在8.6ZB左右,2016年12ZB左右,2020年的时候,全球的数据总量将达到40ZB。(小编的印象里,高中时用的手机内存卡是512M,当时就感觉已经很牛逼了,现在16G、32G都感觉不够用~)
【Hadoop学习笔记】——Hadoop基础
|
分布式计算 自然语言处理 Hadoop
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
153 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
|
存储 分布式计算 资源调度
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
203 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(一)
|
机器学习/深度学习 分布式计算 资源调度
大数据—Hadoop 3.x—二.hadoop搭建
hadoop分为三种搭建方式 ● Local (Standalone) Mode 本地单机模式,文件存储在Linux ● Pseudo-Distributed Mode 伪分布式,文件存储在HDFS,但是只有一台机器 ● Fully-Distributed Mode 完全分布式,文件存储在HDFS,多台机器
172 0
大数据—Hadoop 3.x—二.hadoop搭建
|
存储 分布式计算 资源调度
Hadoop社区比 Ozone 更重要的事情
本文回顾了最近几年Hadoop项目的发展,着重探讨个人对Ozone的看法和理解,不求正确,引玉而已,欢迎业内专家拍砖讨论。
Hadoop社区比 Ozone 更重要的事情
|
存储 分布式计算 资源调度
从 hadoop 1.0 到 hadoop 2.0 的演化
Hadoop 1.0 到 Hadoop 2.0 的演化是怎样的呢,从中我们又能学到什么。。。
1427 0

相关实验场景

更多