文档备案控制台

开发者社区问答正文

hadoop和spark的都是并行计算，那么他们有什么相同和区别

hadoop和spark的都是并行计算，那么他们有什么相同和区别

展开

收起

茶什i 2019-10-29 14:27:41 1821 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

珍宝珠

两者都是用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束
spark用户提交的任务成为application，一个application对应一个sparkcontext，app中存在多个job，每触发一次action操作就会产生一个job
这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行，executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算 hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系
spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作如join，groupby等，而且通过DAG图可以实现良好的容错

2019-10-30 15:30:06

赞同展开评论

问答分类：

分布式计算并行计算 Hadoop Spark

问答标签：

hadoop apache spark hadoop spark apache spark Hadoop hadoop spark区别 apache spark并行计算

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark*.*.* hadoop-common用的是哪个版本

228

1

0

MaxCompute spark作业报错Class org.apache.hadoop.fs....

463

1

0

hadoop的mapreduce和mongodb的mapreduce有什么区别？

189

1

0

Flink CDC有信创要求的，能用hadoop flink spark 这些开源组件吗？

1056

3

0

你觉得Hadoop和Spark的技术优缺点以及适用场景都有哪些？

926

1

0

spark on k8s，有使用without-hadoop版本的吗？

968

0

0

大数据系统（Hadoop/Spark）特点是什么？

706

1

0

Storm&Spark中Hadoop包括什么呢？

806

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

1002

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

1078

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

动态变量话术引擎对直播有什么作用？

新手如何进行OSS 图片处理 CDN 加速？

什么年代了，qoder cn还不支持多agent协同一起完成任务

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

相关文章

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

全新服务器大模型部署进阶：RTX 4090显卡驱动安装与模型运行容错适配指南.176

跨境订单智能分合箱贪婪算法 Python 实现，适配中日海关双重财税规则

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

Hologres + Flink 实时OLAP分析实战：从T+1报表到秒级洞察的数据平台

还有其他疑问?