Cloudera CTO: Hadoop与Spark是合作不是取代

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

在开源领域,Hadoop算得上是最成功的项目之一。这个诞生于2006年的开源项目,如今几乎成了大数据的代名词,越来越多的企业正在将Hadoop应用到他们的业务中。Hadoop已成为各类企业解决海量数据的通用处理平台,被广泛运用到医疗、教育、交通等多个行业,用来对数据进行分析处理、对未来进行预测。尽管如此,作为一个开源项目,Hadoop也面临着架构复杂、技术门槛高等诸多挑战,特别是随着人工智能热的出现以及Spark等新一代大数据处理框架的崛起,企业对Hadoop出现了很多需求。在这种情况下,Hadoop会做出哪些调整?即将发布的Hadoop 3.0会有哪些改进?就显得尤为引人瞩目。就此话题,在不久前举行的Strata+Hadoop新加坡大会期间,记者专访了Hadoop的一个重要玩家Cloudera 的创始人兼CTO Amr Awadallah。

Cloudera CTO: Hadoop已形成一个大生态系统

Cloudera 的创始人兼CTO Amr Awadallah

Hadoop成为海量数据处理的通用平台

在Amr Awadallah看来,过去的10年来,Hadoop的发展归为三个阶段,2008年之前Hadoop是证明了其可用性,给使用者以信心;2008年到如今,Hadoop是证明了其扩展性,逐渐占据海量数据处理市场;2008年之后,Hadoop进入了快速扩展阶段,其用户群开始从美国本土进入更多的国家扩散。

作为Hadoop生态圈中的重要一员,Cloudera的整体发展也基本保持这种节奏。他透露,如今Cloudera客户数迅速扩展到全球,已拥有1500多家客户(美国本土1000多家),合作伙伴也多达2600多个。其中IaaS的供应商就有100多家,这也说明Hadoop越来越多地和云计算绑定到了一起。

“这10年来,Hadoop接受了一个又一个案例的考验,已经被证明是可以满足企业级应用需求的,包括其稳定性、可扩展性都是足以满足严苛的企业用户需求的。”Amr Awadallah强调说,对于一个开源项目这很关键,是一笔重要的财富。

对于Hadoop而言,这10年另一个关键成绩就是围绕Hadoop已经形成了一个庞大的生态系统,一方面,在这个生态系统中有IaaS这样的云平台供应商、各类工具提供商,还有帮助最终客户完成部署并达成项目的众多合作伙伴,他们共同打造出一个繁荣的Hadoop生态。另一方面,Hadoop项目也从最初的HDFS、HBase、MapReduce等不多的项目扩展到包括Spark在内的众多开源项目的集合,展示出强大的包容能力。

“有人认为Spark会取代Hadoop,这种说法是不科学的。”Amr Awadallah特别强调这两者是相互依存的关系不是取代。他说,目前仅他所知道的同时使用Spark+Hadoop的项目就不下30个。这些项目中Hadoop很多被作为一个底层,来支撑其上运行的Spark,毕竟Spark只是一个框架,它需要HDFS来存储底层数据。

Amr Awadallah进一步解释说,需要Hadoop+ Spark的场景很多,比如,这样可以处理的数据来源可以更丰富,或者可扩展性也更强,或者这种组合可以满足多种目的的使用需求。

“根据目前的使用经验来看,基于内存计算的Spark还有一些不足,而这些不足借助Hadoop可以帮助克服。比如,Spark目前最大的应用案例是100-200个节点,而Hadoop可以达到4000个节点。另外,稳定性与Hadoop相比也有不足。”Amr Awadallah表示。

Hadoop 3.0值得期待

Hadoop是开源软件,这使得它天生地带有创新速度快等特点,与此同时,开源软件易用性不足、工具相对缺乏也如影相随。这是因为开源软件的开发人员往往愿意把精力用在那些关键功能上,而对于边缘的、非业务关键功能则关注不够。正因为如此,开源软件特别需要一些像Cloudera这样的商业公司来帮忙,包括为用户提供咨询服务、开发周边的使用工具、提供完整的Hadoop打包套件等。

实际上,即便是那些具有丰富经验的工程师有时仍会面对诸多复杂纷繁的问题而挠头,对Hadoop初学者和普通用户而言这个挑战就更大了。对此,Amr Awadallah表示,这是开源软件面临的一个普遍性问题,好在市场上还存在不少像Cloudera这样的公司可以为用户提供帮助。比如,Cloudera采用开源+闭源结合的方式,既提供有自己的Hadoop发布版,同时也提供不少商业化的工具来帮助用户更好地发挥Hadoop的价值。另一方面,它们也会联合社区来共同推动Hadoop功能的改进,使其更好用、易用。

他透露,即将发布的Hadoop 3.0在上述方面就有不少的改进,其中引入了一些重要的功能和优化,而最大改变的就是HDFS,包括HDFS 可擦除编码、多Namenode支持,也会支持Spark等。这些改进的一个直接后果是能更快,同时,也会减少存储空间。

采访中Amr Awadallah提醒说,与传统的基于数据库和数据仓库的应用相比,大数据是一种完全不同的应用类型。对于企业而言,在部署大数据系统之前,首先是要了解大数据能解决哪些问题?自己准备用大数据来解决哪些问题。否则,很容易导致为用大数据而用大数据的结局,这会影响项目的成功。其次,要积极学习新知识,同时也要结合过去掌握的数据库方面的知识。

展望未来,Amr Awadallah表示,当下Hadoop面临一个非常好的历史机遇,这就是人工智能的兴起,而很多人工智能背后都离不开Hadoop。

“人工智能最后拼的就是数据,数据量越大越最准确,最后的决策就越科学,在这种海量数据的处理平台中,Hadoop是最有竞争力的一个。”Amr Awadallah说。

另外,Amr Awadallah提到还有一些新的热门应用也会是Hadoop的机会,比如,眼下大热的区块链。一些区块链供应商选用Hadoop取代传统数据库来作为底层数据平台。在大会期间,记者遇到了来自上海万达网络金融服务有限公司的蔡栋,他是该公司总裁助理兼网络数据中心副总经理、首席架构师,上海万达网络金融服务有限公司区块链项目的直接负责人。他们所做的正好可以佐证Amr Awadallah的观点。

Cloudera CTO: Hadoop已形成一个大生态系统

上海万达网络金融服务公司总裁助理兼网络数据中心副总经理、首席架构师蔡栋

大会期间,上海万达网络金融服务有限公司联合Cloudera重磅发布一站式“大数据+区块链”解决开源方案 – Project Hercules大力神项目。蔡栋介绍说,Project Hercules突破性地实现了基于各种数据中心或云环境的大数据+区块链基础架构服务,为行业用户提供集成的大数据处理、分析支持以及区块链应用的构建与管理。

“考虑到区块链项目的未来应用前景,我们认为,区块链一定就是基于大数据的。这是我们选择Cloudera Hadoop版的主要原因之一。”蔡栋表示,他对Hadoop落地到区块链的项目充满的信心和期待。





原文发布时间为:2016年12月20日 
本文作者:作者:邹大斌
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
196 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
83 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
118 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
87 1
|
4月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
95 2
|
4月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
362 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
78 0
|
8天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
38 4
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
83 1
|
2月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
90 5

相关实验场景

更多