文档备案控制台

开发者社区大数据文章正文

Storm、Spark和MapReduce 开源分布式计算系统框架比较

2017-08-01 2278

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求，目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm；这三个框架各有优势，现在都属于 Apache 基金会下的顶级项目，下文将对三个框架的特点与适用场景进行分析，以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早，知名度最大的分布式计算框架，最早由 Google Lab 开发，使用者遍布全球（Hadoop PoweredBy）；主要适用于大批量的集群任务，由于是批量执行，故时效性偏低，原生支持 Java 语言开发 MapReduce ，其它语言需要使用到 Hadoop Streaming 来开发。Spark Streaming 保留了 Hadoop MapReduce 的优点，而且在时效性上有了很大提高，中间结果可以保存在内存中，从而对需要迭代计算和有较高时效性要求的系统提供了很好的支持，多用于能容忍小延时的推荐与计算系统。Storm 一开始就是为实时处理设计，因此在实时分析/性能监测等需要高时效性的领域广泛采用，而且它理论上支持所有语言，只需要少量代码即可完成适配器。

下面的表格是对三者部分特性的比较，描述时间为 2015-5-3，三个项目均处于快速迭代中，文中描述特性会随时产生变化，如果与官方文档产生出入以官方文档为准。

大数据

本文作者：佚名

来源：51CTO

文章标签：

分布式计算

流计算

Spark

Hadoop

Java

Apache

开发者

关键词：

apache spark开源

分布式系统

分布式框架

apache spark系统

apache spark Mapreduce

知与谁同

目录

相关文章

武子康

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

557 2 2

游客tvgb6vci6chtq

|

缓存分布式计算资源调度

Spark 与 MapReduce 的 Shuffle 的区别？

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型，中间数据写入磁盘，I/O 开销大；而 Spark 使用基于内存的多阶段执行模型，支持操作合并和内存缓存，减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数，提升了性能。此外，Spark 通过 lineage 实现容错，资源管理更灵活，整体大数据处理效率更高。

游客tvgb6vci6chtq

980 6 7

技术小达人

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

2266 0 0

aliyun4381607004

|

分布式计算 Java 开发工具

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景，随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码，发现使用的`nativeBooster.saveModel`方法不支持OSS路径，而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令，帮助用户顺利迁移模型存储路径。

aliyun4381607004

985 1 1

DreamSpark

|

SQL 分布式计算 Java

E-MapReduce Serverless Spark体验评测

从了解到部署实践，全方位带你体验大数据平台EMR Serverless Spark的魅力。

DreamSpark

877 7 7

E-MapReduce Serverless Spark体验评测

wljslmz

|

缓存分布式计算 Java

详细解读MapReduce框架中的分布式缓存

【8月更文挑战第31天】

wljslmz

408 2 2

vohelon

|

分布式计算资源调度 Shell

如何开始使用Spark框架？

【8月更文挑战第31天】如何开始使用Spark框架？

vohelon

505 2 2

vohelon

|

SQL 机器学习/深度学习分布式计算

【8月更文挑战第31天】Spark框架

vohelon

404 2 2

魏红斌

|

分布式计算监控 Serverless

E-MapReduce Serverless Spark 版测评

E-MapReduce Serverless Spark 版测评

魏红斌

11945 10 13

开发者评测

|

分布式计算 Serverless Spark

【开发者评测】E-MapReduce Serverless Spark获奖名单

E-MapReduce Serverless Spark获奖名单正式公布！

开发者评测

457 1 1

热门文章

最新文章

hive在E-MapReduce集群的实践（二）集群hive参数优化

使用E-MapReduce服务将Kafka数据导入OSS

MapReduce 不适合处理实时数据的原因剖析

hive在E-MapReduce集群的实践（一）hive异常排查入门

《Hadoop与大数据挖掘》——2.5　K-Means算法原理及Hadoop MapReduce实现

开源深度学习库BigDL在阿里云E-MapReduce上的实践

MapReduce中数据类型详解

MapReduce 原理介绍与开发实战

【细节拉满】Hadoop课程设计项目，使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)（一）

E-MapReduce集群-JAVA客户端远程连接HDFS

MapReduce自定义分组比较器（GroupingComparator）

MapReduce在实现PageRank算法中的应用

Spark 与 MapReduce 的 Shuffle 的区别？

使用Hadoop MapReduce进行大规模数据爬取

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-11-MapReduce JOIN 操作的Java实现 Driver Mapper Reducer具体实现逻辑模拟SQL进行联表操作

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

Hadoop 分布式计算框架 MapReduce

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！