文档备案控制台

开发者社区问答正文

spark当中宽依赖、窄依赖怎么理解？

spark当中宽依赖、窄依赖怎么理解？

展开

收起

游客ahv54x37wvm7u 2021-12-12 21:04:08 775 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客lu6fsp6mkfgcm

RDD 作为数据结构，本质上是一个只读的分区记录集合。一个 RDD 可以包含多个分区，每个分区就是一个 dataset 片段。RDD 可以相互依赖。

首先，窄依赖可以支持在同一个 cluster node上，以 pipeline 形式执行多条命令（也叫同一个 stage 的操作），例如在执行了 map 后，紧接着执行 filter。相反，宽依赖需要所有的父分区都是可用的，可能还需要调用类似 MapReduce 之类的操作进行跨节点传递。

其次，则是从失败恢复的角度考虑。窄依赖的失败恢复更有效，因为它只需要重新计算丢失的 parent partition 即可，而且可以并行地在不同节点进行重计算（一台机器太慢就会分配到多个节点进行），相反，宽依赖牵涉 RDD 各级的多个 parent partition。

2021-12-12 21:04:20

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark依赖 apache spark宽依赖窄依赖 apache spark宽依赖

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark如何引用依赖的文件/资源

130

1

0

DataWorks引入spark3 的依赖报错，找不到odps data source？

121

1

0

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

215

1

0

如何在不依赖Spark的情况下，使用Python安装并读取Delta Lake表？

165

1

0

spark 读取大数据计算MaxCompute 本地需要依赖什么包？

102

1

0

大数据计算MaxCompute哈，引入spark3 的依赖报错，找不到odps data ？

96

1

0

Hudi 在不依赖Flink 和 Spark 的情况是否还有其他方式可以查询hudi的数据

201

1

0

DataWorks实时任务节点spark streaming是否支持周期调度，依赖调度？

164

3

0

MaxCompute中maven仓库有提供spark-core_2.11阿里云版本的依赖不？

619

20

0

spark当中宽依赖、窄依赖是什么意思？

841

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

相关文章

别再把大数据平台当“巨石”了：聊聊云原生时代的大数据平台怎么活得更久

Spark / Flink 跑在 Kubernetes 上真的更香吗？聊聊那些没人提前告诉你的性能坑

AI 会写稿了，人还要不要写？——聊聊生成式 AI 在数据增强与自动写稿里的伦理和质量问题

Dataphin功能Tips系列（92）如何方便快速地通过SQL取数实现定制化数据同步

阿里云第九代ECS云服务器（c9i、g9i、r9i）CPU采用Intel® Xeon® Granite Rapids处理器，主频3.2 GHz

还有其他疑问?