Hadoop的过去、现在和未来

简介:

Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。不过,在这个星球上,你找不到拥有11年Hadoop经验的人。因为目前在Hadoop领域经验最丰富的人是Doug Cutting,他在Hadoop方面拥有的经验是10年零7个月。而这位Doug Cutting正是Hadoop之父,Cloudera公司首席架构师。

作为处理海量数据最常用的方法,Hadoop的核心是Map和Reduce,也就是将一个庞大的任务进行分解,然后再将结果进行汇总。但经过10年发展,Hadoop的功能早已不是MapReduce这么简单。今天的Hadoop是分布式计算所涉及的计算、存储、文件系统、网络、安全、负载均衡、管理等一系列软件方法的合集。也正是由于其完整性和成熟度,今天的Hadoop虽然面临Spark等新兴技术的竞争,却仍是分布式计算领域不可或缺的基础和前提。

作为一个开源项目,Hadoop目前仍在告诉发展、快速更新;作为开源软件服务的成功践行者,Cloudera的Hadoop发行版本正在成为越来越多企业在部署分布式计算系统时的首选。

开源与商业,过去和未来;身为Hadoop之父、Cloudera公司首席架构师、Apache基金会前主席,Doug Cutting确实有话要说。

Hadoop成功的基础

Hadoop无疑是Apache基金会中最引人注目和最庞大的顶级项目之一。由于Hadoop定义了分布式计算的方方面面,因此日常的代码提交量也非常巨大。而在海量的代码见决定Hadoop未来走向的则是一个接近百人的评审委员会。

Doug Cutting表示:评审委员会的成员来自各个领域,他们有IT企业中的技术达人、有相关学科的大学教授、有应用专家、更有单纯的技术爱好者。而在这个庞大的评审委员会中,所有成员均拥有“一票否决权”。虽然委员们各自有不同的背景甚至公司利益,但在委员会中,所有人的投票都是相当慎重的。投票所考虑的核心因素只有一个,那就是Hadoop未来的发展。而任何否决票的出现也必须给出技术上的合理解释。

可以说,Hadoop与Apache基金会的其他项目一样,是一个“人人为我、我为人人”的开放环境。

由于有越来越多Cloudera这样的开源企业源源不断的将自己的创新和Debug回馈给整个社区以及优秀的委员会机制,Hadoop在今天仍保持着相当旺盛的生命力。

总结Hadoop过去的成功无非两点:一是从技术上开创了分布式计算时代,二是Apache基金会和Hadoop项目开放、合作、共享的管理理念。

Hadoop如何保持成功

任何一项技术都有其自身的发展路径。而作为一项非常有潜力的技术,Hadoop的未来发展的根基仍然要依靠广泛的应用基础。

Cloudera是目前众多Hadoop发行版中最流行的一个,而Cloudera回馈社区的方式也并不只是简单的贡献代码。

日前,Cloudera与清华大学联合发布BASE (Big Analytics Skill Enablement)倡议,旨在帮助清华大学数据科学研究院培养更多大数据分析专业人才,以填补国内大数据领域人才匮乏的现状。

换句话说,Cloudera将帮助清华大学数据科学研究院培养更多Hadoop使用者和开发者。这样做一方面能够缓解国内大数据人才紧缺的现状,让大数据技术能够进入更多企业和行业;另一方面也为Hadoop项目在未来能够持续发展创造条件,毕竟对于一向技术来说,有人用才有未来。

虽然清华大学是国内首家与Cloudera合作的高效,但从全球来看,Cloudera与教育界的合作已经开展多年。Doug Cutting表示:Cloudera已经与美国、欧洲、新加坡以及亚洲其他国家的高校和研究机构开展了广泛的合作,为他们提供全套免费课程,帮助大学生和研究人员能够更好的使用大数据技术。

显然,Cloudera所执行的是一项相当长远的计划,这也说明Cloudera对Hadoop技术未来发展的信心。

面对竞争,Hadoop的未来是怎样的?

与商业领域一样,技术同样面临竞争。在很多人看来,Hadoop目前最大的竞争对手正是非常火爆的Spark。

对此,Doug Cutting表示:Spark的确在MapReduce方面相比Hadoop拥有更大的性能优势。但Hadoop本身还包括分布式文件系统和任务调度、规划等众多功能;而这些则是Spark所没有的。

作为开源技术,Hadoop和Spark都是模块化开发的。这也就意味着他们是可以相互融合,一起使用的。

在未来,我们很可能看到Spark取代了Hadoop中的MapReduce模块,但分布式计算系统中的存储和调度等功能仍需要Hadoop来实现。

换句话说,Hadoop与Spark之争实际是个伪命题,同样是大数据分析技术,他们的未来应该是融合和协作。

大数据的故事才刚刚开始

从行业整体的发展来看,人类只是刚刚意识到了大数据的重要性,而大数据技术本身的发展和完善仍需要相当长的时间。而对于像Cloudera这样在大数据领域取得先发优势的企业来说,无论是大数据还是开源技术,故事才知是刚刚开始。未来仍旧不可估量。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 Hadoop
|
18天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
46 2
|
18天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
20天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
65 1
|
21天前
|
分布式计算 资源调度 Hadoop
Apache Hadoop入门指南:搭建分布式大数据处理平台
【4月更文挑战第6天】本文介绍了Apache Hadoop在大数据处理中的关键作用,并引导初学者了解Hadoop的基本概念、核心组件(HDFS、YARN、MapReduce)及如何搭建分布式环境。通过配置Hadoop、格式化HDFS、启动服务和验证环境,学习者可掌握基本操作。此外,文章还提及了开发MapReduce程序、学习Hadoop生态系统和性能调优的重要性,旨在为读者提供Hadoop入门指导,助其踏入大数据处理的旅程。
91 0
|
2月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
21 1
大数据Hadoop生态圈体系视频课程
|
5月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
48 0
《PySpark大数据分析实战》-02.了解Hadoop
|
5月前
|
存储 搜索推荐 算法
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
178 0
|
5月前
|
分布式计算 Hadoop Java
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
53 1
|
5月前
|
存储 分布式计算 搜索推荐
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
107 0

相关实验场景

更多