文档备案控制台

开发者社区大数据文章正文

spark源码系列文章------shuffle模块详解

2017-07-19 2024

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一、Basic shuffle writer实现解析在Executor上执行shuffle Map Task时，最终会调用shuffleMapTask的runTask，核心逻辑如下： 1.从sparkEnv中获得shuffleManager； 2.

一、Basic shuffle writer实现解析

在Executor上执行shuffle Map Task时，最终会调用shuffleMapTask的runTask，核心逻辑如下：

1.从sparkEnv中获得shuffleManager；

2.从manager中获得writer

3.调用RDD开始计算，运算结果通过writer进行持久化，持久化之前通过Aggregator来确定是否需要进行Map端聚合，然后将结果通过FileShuffleManager#forMapTask的方法写入，写入完成后，会将元数据信息写入MapStatus，然后下游的Task可以通过这个MapStatus取得需要处理的数据。

这样writer通过ShuffleDependency#partitioner来获得下游partition的数量，下游的每个partition都会对应一个文件，文件名字的格式为：“shuffle_”+shuffledId+"_"+mapId+"_"+reduceId。

由于每个shuffle Map Task需要为每个下游的Task创建一个单独的文件，因此文件的数量就是number(shuffle_map_task)*number(following_task)。这样会导致创建和打开许多文件。

后来spark又引入Shuffle Consolidate Writer，原理是core上的第一个Task创建一个文件，该core上的后面的Task的shuffle操作都追加写入改文件，这样文件数量number(core)*number(following_task) 。

//todo

文章标签：

分布式计算

Spark

关键词：

apache spark shuffle

apache spark模块

apache spark源码

apache spark源码shuffle

apache spark shuffle模块

citibank

目录

相关文章

游客tvgb6vci6chtq

|

缓存分布式计算资源调度

Spark 与 MapReduce 的 Shuffle 的区别？

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型，中间数据写入磁盘，I/O 开销大；而 Spark 使用基于内存的多阶段执行模型，支持操作合并和内存缓存，减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数，提升了性能。此外，Spark 通过 lineage 实现容错，资源管理更灵活，整体大数据处理效率更高。

游客tvgb6vci6chtq

975 6 7

人物我非-32022

|

分布式计算监控大数据

如何优化Spark中的shuffle操作？

【10月更文挑战第18天】

人物我非-32022

1135 1 1

武子康

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

710 0 0

武子康

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

341 0 0

孙玉洁-47170

|

分布式计算监控 Java

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习---day06、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

460 3 3

孙玉洁-47170

|

分布式计算 Spark 索引

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark学习---day07、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

337 2 2

敏叔V587

|

分布式计算 Java Hadoop

Spark3.3.0源码编译补充篇-抓狂的证书问题

Spark3.3.0源码编译补充篇-抓狂的证书问题

敏叔V587

252 0 0

敏叔V587

|

分布式计算 Java 测试技术

肝Spark源码的若干骚操作

肝Spark源码的若干骚操作

敏叔V587

247 0 0

敏叔V587

|

分布式计算 Java 程序员

Spark3.0源码编译打包

Spark3.0源码编译打包

敏叔V587

236 0 0

极客李华

|

分布式计算 Java 调度

Spark中的Shuffle过程是什么？为什么它在性能上很关键？

Spark中的Shuffle过程是什么？为什么它在性能上很关键？

极客李华

613 0 0

热门文章

最新文章

Spark SQL性能优化

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

EMR Spark Relational Cache的执行计划重写

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

钉钉群直播【Spark Relational Cache 原理和实践】

Spark - Task 与 Partition 一一对应与参数详解

Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

HiveOnSpark 报错：java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！