备案控制台

开发者社区阿里云开发者学堂文章正文

Spark 资源和数据并行度优化分析2 | 学习笔记

2021-12-11 231

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 Spark 资源和数据并行度优化分析2

开发者学堂课程【大数据实时计算框架 Spark 快速入门：Spark 资源和数据并行度优化分析2 】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/100/detail/1685

Spark 资源和数据并行度优化分析2

内容简介：

一、SPARK_WORKER_INSTANCE

二、Stage 的切割

三、Repartition 算子

一、SPARK_WORKER_INSTANCESPARK_WORKER_INSTANCE

SPARK_WORKER_INSTANCE,to set the number of worker processes per node (决定了每个节里面由多少个实例）

二、 Stage 的切割

切割 stage 根据宽依赖进行（或者说根据 shuffle 进行） shuffle 分为 map 端和reduce端。

三、 REPARTITION 算子

repartition 算子，用于任意将 RDD 的 partition 增多或者减少！

coalesce 仅仅将 RDD 的 partition 减少！

使用 Spark SQL 从 HIVE 中查询数据时候， spark SQL 会根据 HIVE/ 对应的hdfs 文件的 block 的数量决定加载出来的 RDD 的 partition 有多少个！

默认的 partition 的数量是我们根本无法设置的

有时可能它会自动设置的 partition 的数量过少，为了进行优化可以提高并行度，就对 RDD 使用 repartition 算子！

文章标签：

流计算

分布式计算

SQL

Spark

HIVE

大数据

开发者

关键词：

apache spark资源

apache spark并行度

学堂小助手

目录

相关文章

bigdatalearnshare

|

分布式计算 Spark

通过spark.default.parallelism谈Spark并行度

本篇文章首先通过大家熟知的一个参数spark.default.parallelism为引，聊一聊Spark并行度都由哪些因素决定？

bigdatalearnshare

3728 0 0

通过spark.default.parallelism谈Spark并行度

阿里云基础设施.

|

10月前

|

人工智能分布式计算调度

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

ACK One多集群Spark作业调度，可以帮助您在不影响集群中正在运行的在线业务的前提下，打破资源边界，根据各集群实际剩余资源来进行调度，最大化您多集群中闲置资源的利用率。

阿里云基础设施.

446 26 26

Maynor

|

分布式计算 Java 数据库连接

回答粉丝疑问:Spark为什么调优需要降低过多小任务，降低单条记录的资源开销?

回答粉丝疑问:Spark为什么调优需要降低过多小任务，降低单条记录的资源开销?

Maynor

156 1 1

vohelon

|

机器学习/深度学习分布式计算监控

如何解决Spark在深度学习中的资源消耗问题？

【5月更文挑战第2天】如何解决Spark在深度学习中的资源消耗问题？

vohelon

273 5 5

让线程再跑一会

|

分布式计算 Hadoop 大数据

Spark 【分区与并行度】

Spark 【分区与并行度】

让线程再跑一会

240 0 0

明哥的IT随笔

|

SQL 分布式计算资源调度

分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题

分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题

明哥的IT随笔

620 0 0

Maynor

|

SQL 存储缓存

工作常用之Spark调优【二】资源调优

使用 kryo 序列化并且使用 rdd 序列化缓存级别。使用 kryo 序列化需要修改 spark 的序列化模式，并且需要进程注册类操作。

Maynor

310 1 1

工作常用之Spark调优【二】资源调优

亢海鹏

|

传感器 SQL 分布式计算

MaxCompute Spark 资源使用优化详解

本文主要讲解MaxCompute Spark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。

亢海鹏

2489 0 4

MaxCompute Spark 资源使用优化详解

柯广

|

缓存分布式计算资源调度

Spark面试题（六）——Spark资源调优

Spark资源调优的方法。

柯广

389 0 0

Spark面试题（六）——Spark资源调优

开源小E

|

SQL 存储分布式计算

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor，可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中，无论 Executor上是否有 task 在执行，都会被一直占有直到此 Spark 应用结束。

开源小E

1179 0 0

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

阿里云开发者学堂

热门文章

最新文章

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

欢迎加入Spark中国社区

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

Spark SQL性能优化

Spark中RDD操作

Spark与Kafka的集成与流数据处理

ClickHouse与大数据生态集成：Spark & Flink 实战

Spark SQL概述及特点详解

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

【DataEase】零代码数据可视化分析工具的安装部署保姆级教程