如果给Hadoop安个家 你会选择谁?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

在经历了萌芽、培育阶段后,如今大数据开始逐步落地。不过摆在用户面前的第一个难题也就来了,该如何选择基础架构?以大数据领域应用最为广泛的Hadoop为例,是该选择与其青梅竹马、两小无猜的x86,还是厚积薄发、积极拥抱的Power,事实上这个问题并不好回答。

在近日由ZD至顶网发起的一场关于Hadoop选x86还是Power的观点PK中,网友就这个问题展开了充分的讨论。

他们是怎么说的?

支持Power一方的认为,一直以企业级应用为核心的Power无论性能、稳定性,还是性价比都更高。

支持x86一方的则认为,Hadoop自诞生就与x86紧密地结合在一起,双方契合度更高,而且x86在性能、稳定性方面的表现都在逐渐提高。

双方都有很多的支持者,可以说谁也说服不了谁。本文节选了其中的一些观点,到底谁更有道理,大家也可以自行判断。

Power一方观点:

甲:Power有4倍于x86的线程、带宽和缓存,性能优,现在全面开放,支持Linux、Hadoop等各种开源软件,用户以少于x86服务器一半的服务器数量就能满足原本的需求,性价比更高。

乙:多线程、高带宽的处理器在执行像大数据分析类的并行计算任务时,确实有优势,所以尽管Power后来发力,但前景还是值得期待。

丙:Power开放以来,其生态不断丰富,之前基于Power的Hadoop方案不多,而现在越来越丰富了。

丁:现在的Power已经不只支持Scale-Up,而且针对Scale-Out做了优化;不仅支持Unix,而且拥抱开源,支持Linux;不仅支持OLTP应用,而且支持大数据、移动、社交等新兴应用。

总结起来,一是Power性能强、性价比高,二是全面支持开源软件,三是有丰富的行业解决方案支持。

x86一方观点:

A:x86市场占有率高,是工业标准,与Hadoop青梅竹马,自Hadoop诞生起就与x86紧密关联。

B:Hadoop的衍生、发展一直和x86绑在一起,显然他们的结合更合适,我选择x86。

C:Hadoop是一套分布式大数据系统,x86俨然是分布式的代名词,必然选x86。

D:x86生态更完善。

简单来说,Hadoop与x86的结合时间更长,双方更匹配。

我们的看法

首先不可否认双方的观点都有道理,但我们更要以发展的眼光来看待问题。

众所周知,Hadoop是一个能够对大数据进行分布式存储和处理的软件框架,它具有高可靠性、高扩展、容错、高效、低成本的特点,并因此广受互联网公司(互联网产业是带动x86发展的一股重要力量)的青睐。正是因为有这样一个重要的因素在,所以Hadoop最初便于x86紧密地结合在一起,这样一直发展了很多年。

往后,随着大数据产业的发展,越来越多的其它行业的用户也有这样的需求。不同于互联网这个相对发展年头不太长的产业,其它行业大多历史悠久,内部系统、应用、管理等更为复杂,这也导致了需求的变化。

没有单一产品能够满足所有用户需求的道理相信大家是认同的。所以在2012年,在x86之外,有了新的支持Hadoop的平台,那就是Power。2012年,IBM明确表示支持Hadoop。

随后,围绕Hadoop的解决方案也越来越多,比如星环科技、RedHadoop红象相继都推出了Power版的Hadoop大数据解决方案。

为什么会有这么多厂商去推这样的解决方案,其实根本原因还是市场、用户需求决定的。就像中国电信上海分公司信息网络部云计算工作组组长刘敏曾经在接受采访时所讲到的:“上海电信既有Power平台也有x86平台,所有业务使用什么平台完全是根据实际需求,如业务连续性和安全性等不同要求来自由选择平台。”

所以,我们的观点是x86不再是Hadoop的专属平台,现在有了新的选择 - Power。

当然,我们不是裁判,只能相对客观地去呈现一些内容。比如,相比x86,Power的性能、稳定性、可靠性这些指标确实很高。这一点星环科技的测试结果或许能体现出来一些,“经过IBM和星环科技双方的调优,最终性能是星环科技原有性能的3.65倍。”而这也是星环科技选择支持Power的重要原因。其实RedHadoop红象云腾创始人童小军在前不久接受采访被问到该问题时,也表达的是同样的观点,即用户需要更多的选择,而IBM Power有这个能力。

其次,性价比。x86初始采购成本比Power低,由于Power性能强,以较少的设备就能承担原有的业务,所以在软件费用、运维管理、电费等方面肯定是要省。从整体拥有成本的角度考虑,,这是一笔细账,需要仔细核算。
本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
资源调度
Hadoop3的安装
Hadoop3的安装
|
存储 分布式计算 资源调度
【Hadoop技术篇】hadoop的使用
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。
337 0
【Hadoop技术篇】hadoop的使用
|
SQL 分布式计算 大数据
你必须知道的9大Hadoop公司
如果你有大量的数据,那么Hadoop已然,或者即将应当进入你的视野。 当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖,现在已经逐渐渗透到众多企业中。原因主要有以下两点:1)企业也在产生越来越多需要管理的数据,而Hadoop是一个非常棒的平台,特别是它能够合并遗留的旧数据,新数据和非结构化的数据。
2754 0
|
存储 机器学习/深度学习 分布式计算
Hadoop生态之HDFS
Hadoop生态之HDFS
235 0
|
分布式计算 Hadoop Java
hadoop搭建之hadoop安装
hadoop环境搭建
1417 0
hadoop3.x的安装
请看https://www.cnblogs.com/garfieldcgf/p/8119506.html
861 0
|
存储 分布式计算 Hadoop
Hadoop 学习目录(搁置)
简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
884 0
|
分布式计算 Hadoop 测试技术
|
分布式计算 Hadoop 网络安全

相关实验场景

更多