备案控制台

开发者社区大数据文章正文

通过spark.default.parallelism谈Spark并行度

2020-07-04 3311

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本篇文章首先通过大家熟知的一个参数spark.default.parallelism为引，聊一聊Spark并行度都由哪些因素决定？

本篇文章首先通过大家熟知的一个参数spark.default.parallelism为引，聊一聊Spark并行度都由哪些因素决定？

上图是spark官网关于spark.default.parallelism参数说明：

1、对于reduceByKey和join这些分布式shuffle算子操作，取决于它的父RDD中分区数的最大值

2、对于没有父RDD的的算子，比如parallelize，依赖于集群管理器：

1）本地模式：取决于本地机器的核数
2）如果集群管理器是Mesos，则为8
3）其他的：对比所有executor上总核数与2比较，哪个大是哪个

当然上面这些都是默认值，如果我们自己设置了分区数，情况就会有所变化，直接看源码【查看org.apache.spark.Partitioner源码defaultPartitioner方法】

你会发现，如果你使用reducebykey、groupByKey等这些带shuffle的算子，建议不要通过上述方法让程序内部去推测。完全可以通过传入一个确定的分区数或者自己实现一个分区器来做处理。当然这个确定的分区数也不是贸贸然设定的，需要结合你的业务场景根据实际情况来确定多少合适。比如shuffle时流经的数据量，这个就要结合分区数和shuffle总数据量来做适当调整，处理不好的结果极有可能导致数据倾斜等问题...

笔者再次建议，学习Spark一定要多看Spark官网http://spark.apache.org/，并且多看源码

文章标签：

分布式计算

Spark

关键词：

apache spark并行度

bigdatalearnshare

目录

相关文章

让线程再跑一会

|

18天前

|

分布式计算 Hadoop 大数据

Spark 【分区与并行度】

Spark 【分区与并行度】

让线程再跑一会

76 0 0

学堂小助手

|

SQL 分布式计算大数据

Spark 资源和数据并行度优化分析2 | 学习笔记

快速学习 Spark 资源和数据并行度优化分析2

学堂小助手

147 0 0

疯狂的猿

|

18天前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

171 0 0

梦回故国楼台梦

|

18天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

梦回故国楼台梦

374 1 2

程序猿～厾罗

|

18天前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

80 0 0

1941623231718325

|

5天前

|

分布式计算 Hadoop 大数据

探索大数据技术：Hadoop与Spark的奥秘之旅

【5月更文挑战第28天】本文探讨了大数据技术中的Hadoop和Spark，Hadoop作为分布式系统基础架构，通过HDFS和MapReduce处理大规模数据，适用于搜索引擎等场景。Spark是快速数据处理引擎，采用内存计算和DAG模型，适用于实时推荐和机器学习。两者各有优势，未来将继续发展和完善，助力大数据时代的发展。

1941623231718325

21 3 3

三分钟热度的鱼

|

18天前

|

分布式计算 DataWorks 大数据

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute是阿里云提供的大规模离线数据处理服务，用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时，可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

三分钟热度的鱼

35 1 1

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

程序员三木

|

18天前

|

分布式计算大数据数据处理

[AIGC大数据基础] Spark 入门

[AIGC大数据基础] Spark 入门

程序员三木

198 0 0

jerrywangsap

|

18天前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

145 0 0

梦回故国楼台梦

|

18天前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

梦回故国楼台梦

112 0 0

热门文章

最新文章

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

AnalyticDB MySQL — Spark 助力在OSS上构建低成本数据湖

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Spark RDD类源码阅读

MapReduce Shuffle原理与 Spark Shuffle原理

Spark中分布式使用HanLP（1.7.0)分词示例

Spark 分析网站排名热度

spark开发环境安装配置

spark-streaming-kafka-0-8 官网讲解

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考