文档备案控制台

开发者社区大数据文章正文

Storm、Spark和MapReduce 开源分布式计算系统框架比较

2017-08-01 2137

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求，目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm；这三个框架各有优势，现在都属于 Apache 基金会下的顶级项目，下文将对三个框架的特点与适用场景进行分析，以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早，知名度最大的分布式计算框架，最早由 Google Lab 开发，使用者遍布全球（Hadoop PoweredBy）；主要适用于大批量的集群任务，由于是批量执行，故时效性偏低，原生支持 Java 语言开发 MapReduce ，其它语言需要使用到 Hadoop Streaming 来开发。Spark Streaming 保留了 Hadoop MapReduce 的优点，而且在时效性上有了很大提高，中间结果可以保存在内存中，从而对需要迭代计算和有较高时效性要求的系统提供了很好的支持，多用于能容忍小延时的推荐与计算系统。Storm 一开始就是为实时处理设计，因此在实时分析/性能监测等需要高时效性的领域广泛采用，而且它理论上支持所有语言，只需要少量代码即可完成适配器。

下面的表格是对三者部分特性的比较，描述时间为 2015-5-3，三个项目均处于快速迭代中，文中描述特性会随时产生变化，如果与官方文档产生出入以官方文档为准。

大数据

本文作者：佚名

来源：51CTO

文章标签：

分布式计算

流计算

Spark

Hadoop

Java

Apache

开发者

关键词：

apache spark开源

分布式系统

分布式框架

apache spark系统

apache spark Mapreduce

知与谁同

目录

相关文章

奔跑的数据

|

10月前

|

数据采集存储数据可视化

分布式爬虫框架Scrapy-Redis实战指南

本文介绍如何使用Scrapy-Redis构建分布式爬虫系统，采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略，实现高效数据抓取。结合价格动态趋势分析，助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储，提供完整的技术路线图与代码示例。

奔跑的数据

1094 0 1

分布式爬虫框架Scrapy-Redis实战指南

北风几吹夏

|

8月前

|

监控 Java 调度

SpringBoot中@Scheduled和Quartz的区别是什么？分布式定时任务框架选型实战

本文对比分析了SpringBoot中的`@Scheduled`与Quartz定时任务框架。`@Scheduled`轻量易用，适合单机简单场景，但存在多实例重复执行、无持久化等缺陷；Quartz功能强大，支持分布式调度、任务持久化、动态调整和失败重试，适用于复杂企业级需求。文章通过特性对比、代码示例及常见问题解答，帮助开发者理解两者差异，合理选择方案。记住口诀：单机简单用注解，多节点上Quartz；若是任务要可靠，持久化配置不能少。

北风几吹夏

805 4 5

一只笨鼠

|

存储监控数据可视化

常见的分布式定时任务调度框架

分布式定时任务调度框架用于在分布式系统中管理和调度定时任务，确保任务按预定时间和频率执行。其核心概念包括Job（任务）、Trigger（触发器）、Executor（执行器）和Scheduler（调度器）。这类框架应具备任务管理、任务监控、良好的可扩展性和高可用性等功能。常用的Java生态中的分布式任务调度框架有Quartz Scheduler、ElasticJob和XXL-JOB。

一只笨鼠

4837 66 66

喵手

|

数据采集人工智能分布式计算

MaxFrame：链接大数据与AI的高效分布式计算框架深度评测与实践！

阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架，提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame，涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示，MaxFrame在处理大规模数据时性能显著提升，代码兼容性强，适合从数据清洗到训练数据生成的全链路场景...

喵手

678 5 5

MaxFrame：链接大数据与AI的高效分布式计算框架深度评测与实践！

游客tvgb6vci6chtq

|

缓存分布式计算资源调度

Spark 与 MapReduce 的 Shuffle 的区别？

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型，中间数据写入磁盘，I/O 开销大；而 Spark 使用基于内存的多阶段执行模型，支持操作合并和内存缓存，减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数，提升了性能。此外，Spark 通过 lineage 实现容错，资源管理更灵活，整体大数据处理效率更高。

游客tvgb6vci6chtq

722 6 7

warmhearted

|

人工智能分布式计算大数据

MaxFrame 产品评测：大数据与AI融合的Python分布式计算框架

MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架，支持大规模数据处理与AI应用。它提供类似Pandas的API，简化开发流程，并兼容多种机器学习库，加速模型训练前的数据准备。MaxFrame融合大数据和AI，提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂，但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。

warmhearted

571 8 8

技术小达人

|

11月前

|

人工智能监控开发者

阿里云PAI发布DeepRec Extension，打造稳定高效的分布式训练，并宣布开源！

阿里云PAI发布DeepRec Extension，打造稳定高效的分布式训练，并宣布开源！

技术小达人

271 0 0

郑小健

|

分布式计算大数据数据处理

技术评测：MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口

随着大数据和人工智能技术的发展，数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame（简称“MaxFrame”）是一个专为Python开发者设计的分布式计算框架，它不仅支持Python编程接口，还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评，探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现，并分析其在实际工作中的应用潜力。

郑小健

501 2 3

武子康

|

分布式计算资源调度 Hadoop

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

武子康

334 3 3

NorthS

|

分布式计算 Hadoop Java

Hadoop MapReduce编程

该教程指导编写Hadoop MapReduce程序处理天气数据。任务包括计算每个城市ID的最高、最低气温、气温出现次数和平均气温。在读取数据时需忽略表头，且数据应为整数。教程中提供了环境变量设置、Java编译、jar包创建及MapReduce执行的步骤说明，但假设读者已具备基础操作技能。此外，还提到一个扩展练习，通过分区功能将具有相同尾数的数字分组到不同文件。

NorthS

211 1 1

热门文章

最新文章

Idea里面老版本MapReduce设置FileInputFormat参数格式变化

MapReduce 不适合处理实时数据的原因剖析

《Hadoop与大数据挖掘》——2.5　K-Means算法原理及Hadoop MapReduce实现

MaxCompute（原ODPS） MapReduce常见问题解答

从MapReduce的执行来看如何优化MaxCompute（原ODPS） SQL

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

E-MapReduce中Spark 2.x读写MaxCompute数据

MaxCompute MapReduce

专注年轻一代，基于E-MapReduce梨视频推荐系统

MapReduce业务－图片关联计算

Spark3.3.0源码编译补充篇-抓狂的证书问题

Spark性能优化之SparkUI

利用SparkLauncher实现Spark Cluster模式下的远端交互

Spark3.x的Cache能不能让我在2022好好睡觉

Spark 3.0 中的屏障执行模式_Spark的MPI时代来了

Spark性能优化指南—思路梳理

肝Spark源码的若干骚操作

Spark的几种去重的原理分析

Spark开发实用技巧-从入门到爱不释手

Spark 编译出现 InvalidAlgorithmParameterException: the trustAnchors parameter must be non-empty

相关课程

更多

开源PolarDB分布式版部署实操

Spring Boot+Vue.js+FastDFS实现分布式图片服务器

基于Zookeeper、Dubbo构建互联网分布式基础架构

分布式文件存储系统技术及实现

Hadoop 分布式计算框架 MapReduce

分布式协调系统 Zookeeper 快速入门

相关电子书

更多

高并发分布式缓存Redis6.0

基于社区的分布式风险感知模型

如何利用Redisson分布式化传统Web项目

下一篇

附部署代码｜云数据库RDS 全托管 Supabase服务：小白轻松搞定开发AI应用