MapReduce朝不保夕的江湖地位

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

可怜的MapReduce,直到2013年末,都是Hadoop系统中的关键一环,在这个开源大数据处理框架中,它既是集群的资源管理器,又作为主要编程手段和处理环境存在。但如今看来,情况正在发生变化。

Apache Software Foundation的Hadoop 2版本添加了一个名叫YARN的新技术,取代了MapReduce的资源管理角色,并将Hadoop发展成了超越MapReduce批处理作业的应用程序。目前有很多厂商推出了SQL-on-Hadoop工具,让用户编写针对Hadoop数据分析查询的标准SQL,以代替MapReduce。Spark 处理引擎也应运而生,其支持者声称它运行批处理作业的速度比MapReduce快100多倍,并且支持时下流行的高级编程语言,如Java和Python 等。

随着上述新兴技术的出现,MapReduce已经不再像以往那么重要,就像一个古老的蒸汽引擎被迫让位于更时尚的柴油机车一样。这个现实在纽约 Strata + Hadoop World 2015 会议后更为凸显,在此次会议中,与会者广泛讨论了摆脱MapReduce的议题。用一位发言人的话说,“摆脱MapReduce,尽快和尽可能多地摆脱。”

MapReduce Geospatial 的出现,将这一“去MapReduce化”的情绪推向了顶峰,它是一个开源工具包,用于处理卫星图像和其他大型的栅格数据集。它促使开发者转变原有被称为 MrGeo的开发技术,从MapReduce转而使用Spark。这样做的结果是获得了更高的性能,且代码库容量减少了25%,卫星成像分析公司(DigitalGlobe)的分析主管Smith 承认,是时候为工具包起一个新的名字了。

不仅仅是MapReduce, HDFS (Hadoop分布式文件系统)——Hadoop的其他核心组成部分的代表,也有可能被取代。在Strata 会议上,Hadoop供应分销商的领头羊Cloudera公布了一种名为Kudu的柱状数据存储,作为HDFS在实时流数据分析方面的一个潜在替代技术。 Hortonworks,另一个Hadoop供应商,推出了一个单独的软件来管理不同系统之间的数据流,HDFS的地位受到了威胁。

MapReduce和HDFS很快就会消失。尽管目前有很多应用程序基于二者构建,大量的Hadoop用户仍会使用它们来完成一些大数据处理的需要。但以后部署Hadoop系统将不再需要这两种技术的情况将不可避免。

他们真的还会是Hadoop集群吗?这是一个生死攸关的问题。但Hadoop的进化,或者身份危机也许是大数据时代带来的易变性数据管理环境所引发变革的一个缩影。各种关系数据库和SQL一枝独秀的时代一去不返了。我们生活在一个多元的世界,这个世界存在各种技术,满足着不同的数据处理和分析的需要。当然关系型软件也在其中,此外还包括由Hadoop,Spark,NoSQL数据库以及其他大数据工具组成的庞大且不断扩张的生态系统。Hadoop处于这个生态系统的中心位置,但这个位置并不是永久的,很可能在将来的某一天被其他技术所取代。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
177 3
|
2月前
|
资源调度 分布式计算 Hadoop
揭秘Hadoop Yarn背后的秘密!它是如何化身‘资源大师’,让大数据处理秒变高效大戏的?
【8月更文挑战第24天】在大数据领域,Hadoop Yarn(另一种资源协调者)作为Hadoop生态的核心组件,扮演着关键角色。Yarn通过其ResourceManager、NodeManager、ApplicationMaster及Container等组件,实现了集群资源的有效管理和作业调度。当MapReduce任务提交时,Yarn不仅高效分配所需资源,还能确保任务按序执行。无论是处理Map阶段还是Reduce阶段的数据,Yarn都能优化资源配置,保障任务流畅运行。此外,Yarn还在Spark等框架中展现出灵活性,支持不同模式下的作业执行。未来,Yarn将持续助力大数据技术的发展与创新。
33 2
|
2月前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
48 1
|
2月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
71 2
|
5月前
|
人工智能 分布式计算 数据可视化
Hadoop 已死,AI 吞噬世界!
在数据领域,AI 正逐步重塑数据处理和分析的各个环节,从 ETL、数据治理到数据分析和消费方式均会发生根本性变化。Kyligence 联合创始人 & CEO,Apache 顶级开源项目。
|
存储 分布式计算 Hadoop
和封神一起“深挖”Spark
2016云栖大会·北京峰会于8月9号在国家会议中心拉开帷幕,在云栖社区开发者技术专场中,来自阿里云技术专家曹龙(封神)为在场的听众带来《Deep dive into Spark》精彩分享。 关于分享者 曹龙,花名封神,专注在大数据领域,6年分布式引擎研发经验。先后研发上万台Hadoop、ODPS
10881 0
|
NoSQL 运维 存储
ApacheCon 2019 Cassandra分会各大议题深度剖析,解读cassandra前沿工作
NGCC 2019摘要 下一代Cassandra会议(NGCC)是ApacheCon 2019大会中的一场分会。 它是由开发人员,贡献者,提交者,驱动程序作者以及对Apache Cassandra开发感兴趣的人组成的年度会议,他们可以聚在一起讨论Cassandra项目的技术和社区发展方向。
5496 0