你必须知道的9大Hadoop公司-阿里云开发者社区

开发者社区> 小旋风柴进> 正文

你必须知道的9大Hadoop公司

简介: 如果你有大量的数据,那么Hadoop已然,或者即将应当进入你的视野。 当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖,现在已经逐渐渗透到众多企业中。原因主要有以下两点:1)企业也在产生越来越多需要管理的数据,而Hadoop是一个非常棒的平台,特别是它能够合并遗留的旧数据,新数据和非结构化的数据。
+关注继续查看

0.jpg

如果你有大量的数据,那么Hadoop已然,或者即将应当进入你的视野。

当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖,现在已经逐渐渗透到众多企业中。原因主要有以下两点:1)企业也在产生越来越多需要管理的数据,而Hadoop是一个非常棒的平台,特别是它能够合并遗留的旧数据,新数据和非结构化的数据。2)很多的围绕Hadoop提供支持和服务的供应商出现,促使Hadoop更适用于企业;

“Hadoop作为一个开源平台自由成长,深入到企业数据管理架构中势不可挡”,Forrester的分析师MikeGualtieri和Noel Yuhanna在其针对Hadoop市场波动报告中写到。“相信Hadoop会是一个大型企业必备的数据平台,它是未来灵活的数据管理平台的基石。如果你有大量的结构化、非结构化,甚至是二进制数据,那么你的企业就和Hadoop有完美的契合点”。

那么我们该从哪里开始?Forrester会告诉你,有许多地方可以帮助你开始应用Hadoop,他们已经对9个提供Hadoop的公司进行评估,找到每一家公司的优劣势。Forrester总结在这方面没有特别清晰的市场领军,一些相对年轻的公司会追随科技巨头的脚步,为用户提供有竞争力的服务。

首先,关于Hadoop的背景介绍:Hadoop是一个开源的Apache项目,每个人都可以自由下载核心代码,包括Hadoop Common,Hadoop分布式文件系统,Hadoop YARN, 和 HadoopMapReduce。很多公司,从IBM到亚马逊、微软、Terada,都将Hadoop打包成更加易于使用的分布式系统或者服务中。每家公司都会有一些不同的战略,但是关键的区别是Hadoop有能力在可能几千台服务器中分配工作负载,使大数据成为可管理的数据。

备注:以下公司列表基于Forrester的市场波动报告,并未囊括所有的Hadoop和大数据管理平台。列表顺序按公司首字母排列。

亚马逊网页服务(Amazon Web Service,“AMS”)

如果客户想要寻找在公有云上提供的Hadoop平台,那你马上就会发现Forrester称之为“云中之王”的这家公司—亚马逊网页服务(AWS)。这家公司的Hadoop产品叫做“Elastic Map Reduce (EMR)”,AWS称,EMR就是他们使用Hadoop提供的大数据服务,当然他不是一个纯粹的开源Hadoop,它是为跑在AWS的云上特别定制的。

Forrester提到的EMR是市场上应用最广的Hadoop平台,EMR已经拥有多家合作伙伴并为其提供平台以外的额外服务,例如对数据进行查询、建模、集成和管理。根据Forrester的报告称,AWS正在经行更大的创新,从它的发展路线图可以看到,EMR将具备更强的能力,例如它可以自动扩展,根据工作负载情况调整大小。此外AWS还计划连同其他产品和服务,包括RedShift数据仓库,及最新发布的Kenesis实时处理引擎,为EMR提供更强大的支持,并且已经有计划提供NoSQL数据库和商业智能工具的支持。AWS所没有的是用户本地部署的Hadoop分布式系统,这恰恰是后面这两家公司的专长。

Cloudera

Cloudera拥有开源分布式的Hadoop,使用的Apache项目中的很多方面,但同时也在其基础之上做了很大的改进。Cloudera已经为它的产品开发了很多功能,从名为“Cloudera manager”的管理和监控工具,到名为“Impala”的运行在Hadoop上的SQL引擎。Cloudera使用开源Hadoop作为其分布式系统的基础,但它不是一个纯开源的产品。当Cloudera的用户需要一些开源Hadoop所没有的功能,他们就会开发或者找有相应的功能的合作伙伴。“Cloudera创新的手法在忠于Hadoop核心的同时尽力满足客户需求,这是他们有别于其他数据服务供应商的特点。”Forrester称。有超过200个付费用户稳定的运行在Cloudera平台上,有一些用户在其平台上管理1000多个节点超过1PB的数据。

Hortonworks

和Cloudera一样,Hortonworks也是一家只做Hadoop的公司。不同于Cloudera的是,Hortonworks比其他任何一家供应商对于开源Hadoop的粘性更高。Hortonworks的目标是构建Hadoop的生态系统和用户群,同时改善开源代码。它的平台紧紧绑定开源代码,公司官方称这对用户来说非常有益,因为其用户不必完全绑定在数据服务商身上。意思是说,如果Hortonworks的用户确实需要离开他们的平台,那他们可以轻松的把应用程序从Hortonworks平台迁移走。当然,这也不是说他们在开源平台上没有创新。公司把他们有对于平台的开发工作全部给到开源社区,以Ambri为例,它就是Hortonworks开发的用于进行集群管理的工具。Hortonworks的这一举措使它和很多的供应商像Teradata、微软、红帽和SAP建立了非常强的合作伙伴关系。

IBM

当企业考虑大的IT项目时,大都会想到IBM。正因为如此,IBM成为Hadoop项目服务在全球最大的供应商。 Forrester称IBM已经有超过100个Hadoop部署用户,且很多用户都是PB级别的数据。公司将其在网格计算、全球数据中心和企业级部署的丰富经验应用到大数据项目。“IBM的路线图看得出他们正在将IBM已有的产品和BigInsights Hadoop解决方案进行集成,这些已有产品包括SPSS的高级分析工具,用于高性能计算的负载管理,商业智能工具和数据挖掘工具等,”Forrester提到。

Intel

和AWS一样,英特尔也利用并优化了Hadoop版本,使其能够更好的运行在英特尔的硬件上,特别是志强芯片。对于那些一直努力突破Hadoop系统的限制,希望在软件和硬件之间找到最佳平衡点的用户来说,英特尔的Hadoop分布式系统应该最为适用。Forrester提到英特尔最近刚发布这个产品,并已投放市场了,所以很期待他们能够在现有版本基础上有所创新。在所有其他7家“领导者”地位的公司行列中,英特尔和微软在Hadoop市场更能被称为“表现强劲”。

MapR Technologies

MapR Technologies可能是最好的Hadoop分布式系统公司,但很多人都没有听说过这家公司。在Forrester用以编写波动报告而调查的Hadoop用户反馈中,MapR以其在分布式架构和数据处理能力方面获得用户评分最高。这家公司的秘诀是他们拥有一套已经做到了现有的Hadoop版本中的特有功能。例如,MapR的分布式支持NFS,此外,MapR还在它的分布式系统中构建了灾难恢复和高可用的特性。Forrester称在Hadoop市场,MapR只不过没有像Cloudera和Hortonworks那样的品牌认知度,但是随着更多合作伙伴的加入和市场营销的增强,MapR已经逐渐成为主流的Hadoop公司。

Microsoft

微软历来不是一家会拥抱开源软件的公司,但是在这件事情上,他们不但让Hadoop跑在了Windows的机器上,而且还把代码提供给开源项目,以促进Hadoop的生态系统更广泛的发展。这个工作的成果已经体现在微软公有云Azure上的Hadoop产品中。他是一个基于Hortonworks的分布式平台,在Azure上定制的“Hadoop即服务”的产品。

微软还有一些其他的项目,包括“Polybase”,能够实现通过熟悉的SQL语句查询Hadoop的数据的能力。据Forrester的报道,“微软通过在数据库、数据仓库、云计算、OLAP、商业智能、工作表、协同和开发工具方面的优势,不断为微软用户增加在Hadoop方面的能力”。如英特尔一样,微软也被认为是“表现强劲”,但还不是市场的领导者。

Pivotal Software

去年EMC和VMware双方出资从原有公司独立出来成立了Pivotal公司,Pivotal做的主要业务之一就是Hadoop分布式系统,此外还有云上的PaaS服务(Cloud Foundry PaaS)。Pivotal在开源代码之上增加了很多的工具,特别是一个SQL引擎,叫做“HAWQ”,和专为运行大数据平台而定制的Hadoop一体机。Forrester称Pivotal的Hadoop平台最大的优势就是它能够将其分布式系统和其他Pivotal,EMC和VMware的产品集成,然而,根据Forrester的报道,这家公司目前只有不到100个用户,而且大部分都是中型用户。

Teradata

像Teradata这样的公司抑或将Hadoop视为威胁或者视为机会,公司专注在数据管理,特别是SQL和关系型数据库方面。因此像Hadoop这样的NoSQL平台的崛起可能会对公司产生威胁。然而,Teradata还是拥抱了Hadoop。通过和Hortonworks合作,Teradata现在已经将Hadoop平台集成到现有SQL系统中,给现有的Terada用户一个即插即用的Hadoop平台,它能够和已经存在于Teradata数据仓库中的数据无缝集成。


原文发布时间为:2014-04-17


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9497 0
【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive
本讲义出自Yusuke Furuyama与Yang Xie在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于电力公司智能电表数据的数据分析案例,并分享了利用MapReduce与Spark 1.6进行计算的性能比较情况,并对于Spark 2.0的进化情况进行了分享。
2007 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
11214 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13186 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
11509 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
4013 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
6895 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
21913 0
2736
文章
6591
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载