应对Hadoop选择困难症 四大产品特征值得关注

简介:

虽然构成Hadoop生态系统堆栈均为开源技术,但是为使用商业Hadoop平台而支付一定的订阅费用还是大有裨益的。例如,订阅后提供技术支持和培训,而且会开放企业级功能,而这些功能是不向开源社区提供的。

虽然厂商Hadoop发行版的企业版本都提供了Hadoop生态系统堆栈的核心组件,但是这些厂商提供的超越公开可访问功能的部分才是其关键优势。

最近市场弱化了Hadoop厂商的层级。例如,就在本月,Pivotal Software取消了其自身的Hadoop发行版并宣布会转售Hortonworks作为替代。但是仍有很多不同的厂商需要考虑,包括独立Hadoop专家,云厂商和

本文根据几个主要特征将顶级Hadoop发行版进行了区分,帮助你决定哪家Hadoop厂商才是最适合你所在的企业;这些特征包括部署模型,企业级功能,安全性和数据保护功能,以及支持服务。

请注意虽然Hadoop大数据管理生态系统是设计来支持可扩展数据存储和高性能分布式计算的,但实际性能可能会因多个原因而有所不同,包括软件的实现。但是很多性能问题都依赖于计划应用程序本身。要解决这一问题,我们将进一步研究Hadoop产品发行版是如何来满足用户所在企业的业务需求的。

Hadoop部署模型

大多数Hadoop厂商都支持部署方法的混合,但是来自Microsoft和Amazon Web Services的Hadoop产品是在云环境下单独部署的。Microsoft将Azure云设施用于HDInsight,这是一项基于Hortonworks Data Platform(HDP)的管理服务——Pivotal如今正在转售同样的Hadoop发行版。AWS利用自己的Amazon Elastic Cloud Computing平台和S3数据存储来对Amazon Elastic MapReduce(EMR)进行支持,它还将各种其他工具和技术与其Hadoop发行版进行了捆绑。此外,Amazon EMR还提供了用MapR的Hadoop发行版来替代Amazon同类的选项。

云部署模型提供了一个快捷而成本低的方法,该方法配备有Hadoop集群,而且Microsoft和AWS都可以让用户根据需要来对他们的环境大小进行调整以处理动态计算和存储容量需求。这种弹性对于那些计算和存储需求随时间变化的企业是非常理想的。

虽然其他主要的Hadoop厂商——Cloudera,Hortonworks,IBM 和MapR都提供基于云的部署,但是它们并不局限于该模型。它们允许用户下载可以在本地或在私有云的不同服务器上部署的发行版,包括Linux和Windows系统。此外,Cloudera和MapR还提供可以运行诸如VMware之类虚拟环境的沙盒版本。

结论:要考虑你的企业是否喜欢在内部管理其大数据环境还是说更青睐于托管服务。内部管理意味着对软件环境的监督与维护以及对系统的持续监控,该环境是否是在本地的一个物理平台或是用基于云的服务加以封装的。如果你有经验丰富的员工并且了解适当的系统分级特点,或是如果在安全考量下要求保证系统管理处于可信防火墙之下,那么本地选项可能更适合你。

另一种选择是使用厂商的托管服务平台,它会协助配置,发布,管理并监控你的操作。如果你并不能确定你所需要的系统大小或是根据需求增长所期望的系统大小,那么这种选择就更适合于你。使用云或托管服务的好处在于它会在存储和处理资源两方面提供必要的弹性。

顶级Hadoop发行版的企业级功能

三家独立的Hadoop厂商在开发方法上有一些显著的区别。Cloudera经常强调带有内部开发插件技术的Hadoop核心——例如,它的ImpalaSQL-on-Hadoop查询引擎,Cloudera Manager管理工具,以及Kudu,这是为Hadoop Distributed File System(HDFS)用于实施分析应用程序提供数据存储的另一选项。通常来说,如今公司会在自己做了初始开发工作之后将这些技术进行开源。另一方面,Hortonworks对于其“Apache Hadoop社区中自有软件100%独创,以及不存在专门扩展”方面进行了提升。插件技术是其背后的推动力量,例如Ambari配置和管理软件,都是从一开始便作为开源项目发起的。此外,Hortonworks已经与IBM以及其他公司联合起来组成了Open Data Platform Initiative(ODPi),这是一个致力于为Hadoop平台创建一套共同核心技术规格的组织。ODPi成员宣称他们会改善互通性并减少厂商的封锁。

MapR则选择了第三种路径,它通过开发其自身的文件系统(替代使用HDFS)和NoSQL数据库(MapR-DB)以及其他基础技术努力支持具有企业级性能需求的大型集群部署。MapR对实时和流处理应用程序也愈发地关注。在2015年末,公司将其产品重命名为MapR Converged Data Platform,它结合了Hadoop和MapR文件系统以及有着Apache Spark处理引擎和一个名为MapR Streams的新型事件流技术用来应对批处理和事实工作。

从功能的角度来看,Cloudera CDH发行版的企业版本为运营管理和报告以及支持业务持续性提供了工具。这包括了诸如配置历史和回滚,滚动更新和服务重启,以及自动灾难恢复等项目。MapR的企业级产品为更好地管理和确保数据在Hadoop中的可恢复性和可靠性,以及多租户和高可用性功能提供了工具。Hortonworks则为主动监控和维护提供了它自己的HDP支持订阅。

同时,IBM在其BigInsights上为Apache Hadoop发行版采用了面向分析的策略,这符合IBM对销售商业智能和高级分析工具的广泛关注。IBM提供了不同的拥有企业级功能的增值模块作为BigInsights的一部分,包括独立的Analyst和Data Scientist模块。其Analyst模块为联合SQL接入Hadoop和其他数据源提供了Big SQL。BigSheets是Analyst模块的一部分,它可以让用户用一个直观的电子表格界面对存储在Hadoop中的大型数据集进行访问,转换并执行可视化。BigInsights Data Scientist Module包括了一个R语言的版本,称作SystemML的机器学习库,这已经为开源社区做出了贡献。

虽然对于Amazon EMR来说,它的云平台是AWS的主打名片,但是它同样为监控和管理集群以及开启应用程序和集群的互通性来作为Hadoop服务的一部分提供了工具。

Amazon EMR收集用于跟踪进展和测量集群健康的标准。集群健康标准可以通过命令行界面,软件开发套件和API访问,并且可以通过EMR管理控制台来查看。此外,Amazon的CloudWatch监控服务可用于Apache Ganglia性能监控组件的实现来对集群进行检查并根据这些标准所触发的事件来设置警报。

结论:选择一家可以提供增值组件作为企业订阅的厂商可能意味着要建立长期关系,特别是如果这些组件是与其标准栈发行版紧密集成的。如果你担心厂商的封锁,那么就可以考虑那些参与了OPDi的厂商。

来自Hadoop厂商的安全和保护产品

虽然针对企业级应用程序扩大了开源软件的使用范围,但是从安全和保护的角度来说这样是否适合生产使用仍有疑问。几个Hadoop厂商已经采取行动来缓解这种焦虑。

例如,Hortonworks已经同其他厂商和客户联手为Hadoop发起了一个Data Governance Initiative,与之相伴的是对一项名为Altas的新Apache项目的初步关注,该项目是用于管理共享元数据,数据分级,审计和安全性以及数据保护的策略管理。它还努力将Atlas与Ranger进行整合,Ranger是一个用于执行数据访问策略的开源安全工具。Cloudera提供的工具可以让用户对CDH平台的安全性和治理进行管理,同时还支持企业在服从性和监管方面的需求。

此外,Hortonworks,Cloudera,MapR和IBM都提供数据加密。Hortonworks和Cloudera均支持数据的静态加密。MapR提供数据从一个集群传入和传出过程中的以及在集群内部的加密。IBM则提供了一款名为InfoSphere Guardium的产品,它可以实施数据隐私,而且还提供对机密数据的加密和隐藏。

结论:Hadoop厂商提供了不同的方法来进行身份验证,基于角色的访问控制,安全策略管理和数据加密。要仔细定义你的安全和保护需求并且还要对每家厂商是如何解决这些需求的进行评估。

顶级Hadoop发行版支持订阅

开源软件模型的基本价值主张是通过支持和服务来捆绑并简化系统部署。有一个部署Hadoop的替代方案,即从开源库为每个组件下载源代码然后进行构建并将所有的部件集成在一起。这需要技术和精力,而且还很可能是一个迭代的过程。开源厂商已经做了很大的努力,他们提供了预配置的发行版而且维护了一个最新的集成堆栈。

厂商之间的区别很大程度上在于他们的支持模型。Hortonworks提供了几个模型,范围包括在业务时间或一天的响应时间提供基于页面技术支持的Jumpstart版本,以及其拥有全天候支持和取决于问题严重性的更短响应时间的Enterprise版本。Cloudera则为企业许可持有者提供一小时和全天候支持选项的技术支持订阅。它还为拥有Flex和Data Hub版本许可的企业提供高级支持,而对于这些版本的严重问题其响应时间为15分钟。

所有AWS账户都包括基本的技术支持,它提供了全天候的客户服务,访问社区论坛和文档,还包括访问AWS Trusted Advisor应用程序。开发人员支持包括对于严重问题的一小时响应——对大多数问题而言响应时间是12或24小时。商业级的支持提供了全天候通过电子邮件来访问云支持工程师以及根据严重程度来缩减响应时间。而企业级的支持增加了针对严重问题少于15分钟响应时间的内容,还有一项专门的技术账户经理,加上额外的启动和运营支持。

MapR提供的高级支持服务增加了电子邮件支持,自定义门户,培训,紧急问题修复,日间支持和针对优先问题的全天候电话支持。该公司的高级+支持增加了优先队列的门票和单点联系支持,而且还提供现场或是远程专门支持的选项。IBM为购买了许可组件的企业提供支持——也称作他们的增值模块——通过Apache Hadoop对他们的Open Platform进行了扩展。

结论:如果支持服务是厂商附加值的源头,那么不同的支持订阅的成本应该与客户期望相符合。订阅提供的在全天候基础上的一小时甚至是15分钟响应时间的专人支持要比在业务时间通过一个基于网页界面且响应时间为24小时的支持贵出许多。

在过去十年Hadoop已经转变了商业智能和分析行业。但是,正如我们所看到的,开源Hadoop框架所能提供的东西很有限,而且公司需要更加强有力的性能和功能以及维护和支持,因此它们正转向商业Hadoop软件发行版。希望这些信息能够帮助你在购买Hadoop发行版的时候做出更加明智的选择。
本文转自d1net(转载)

相关文章
|
存储 分布式计算 大数据
政企如何选择Apache Hadoop分布式数据采集软件? 武汉大数据产品价值
AI、人工智能、大数据已经成为时代的热门词,无论是企业还是政府单位都对大数据有了进一步的深刻认识,2019年的两会,大数据的发展也成为热点话题。今天,小编就来具体分享一下,关于Hadoop产品的选择,以及大数据产品选择需要注意哪些? 大数据产品选择需要注意事项:1.实用性无论是政企还是教育机构或者其他领域,选择大数据产品,必定要是满足自己的需求,并且能为自身所使用的。
1221 0
|
SQL 分布式计算 大数据
大数据hadoop从入门到精通之hadoop家族产品
作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼。如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来说将是件多么美妙的事情!
3256 0
|
机器学习/深度学习 分布式计算 搜索推荐
|
存储 分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】Hadoop与云存储:在产品中集成对象存储
本讲义出自Rajesh Balamohan在Hadoop Summit Tokyo 2016上的演讲,在演讲中介绍了Hadoop与云存储的集成用例、与Hadoop相匹配的文件系统架构、Hive访问模式,并介绍了基于Hive-TestBench的TPC-DS Benchmarks,最后还分享了对象存储的未来发展趋势。
1676 0
|
13天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
36 2
|
13天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
14天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
55 1
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
4月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
48 0
《PySpark大数据分析实战》-02.了解Hadoop