Spark 资源和数据并行度优化分析2 | 学习笔记

简介: 快速学习 Spark 资源和数据并行度优化分析2

开发者学堂课程【大数据实时计算框架  Spark  快速入门Spark  资源和数据并行度优化分析2 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1685


Spark  资源和数据并行度优化分析2


内容简介:

一、SPARK_WORKER_INSTANCE

二、Stage  的切割

三、Repartition  算子


一、SPARK_WORKER_INSTANCESPARK_WORKER_INSTANCE

SPARK_WORKER_INSTANCE,to set the number of worker processes per node  (决定了每个节里面由多少个实例)  


二、  Stage  的切割

切割  stage  根据宽依赖进行(或者说根据  shuffle  进行)  shuffle  分为  map  端和reduce端。


三、 REPARTITION  算子

repartition  算子,用于任意将  RDD  的  partition  增多或者减少!

coalesce  仅仅将  RDD  的  partition  减少!

使用  Spark SQL  从  HIVE  中查询数据时候,  spark SQL  会根据  HIVE/  对应的hdfs  文件的  block  的数量决定加载出来的  RDD  的  partition  有多少个!

默认的  partition  的数量是我们根本无法设置的

有时可能它会自动设置的  partition  的数量过少,为了进行优化可以提高并行度,就对  RDD  使用  repartition  算子!

相关文章
|
分布式计算 Spark
通过spark.default.parallelism谈Spark并行度
本篇文章首先通过大家熟知的一个参数spark.default.parallelism为引,聊一聊Spark并行度都由哪些因素决定?
通过spark.default.parallelism谈Spark并行度
|
5月前
|
分布式计算 Java 数据库连接
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
54 1
|
5月前
|
机器学习/深度学习 分布式计算 监控
如何解决Spark在深度学习中的资源消耗问题?
【5月更文挑战第2天】如何解决Spark在深度学习中的资源消耗问题?
70 5
|
5月前
|
分布式计算 Hadoop 大数据
Spark 【分区与并行度】
Spark 【分区与并行度】
|
12月前
|
SQL 分布式计算 资源调度
分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题
分享一个 hive on spark 模式下使用 HikariCP 数据库连接池造成的资源泄露问题
|
SQL 存储 缓存
工作常用之Spark调优【二】资源调优
使用 kryo 序列化并且使用 rdd 序列化缓存级别。使用 kryo 序列化需要修改 spark 的序列化模式,并且需要进程注册类操作。
187 1
工作常用之Spark调优【二】资源调优
|
资源调度 分布式计算 Spark
|
缓存 分布式计算 资源调度
Spark面试题(六)——Spark资源调优
Spark资源调优的方法。
261 0
Spark面试题(六)——Spark资源调优
|
传感器 SQL 分布式计算
MaxCompute Spark 资源使用优化详解
本文主要讲解MaxCompute Spark资源调优,目的在于在保证Spark任务正常运行的前提下,指导用户更好地对Spark作业资源使用进行优化,极大化利用资源,降低成本。
2017 0
MaxCompute Spark 资源使用优化详解
|
存储 分布式计算 资源调度
spark on k8s的动态资源分配和external shuffle Service以及任务的队列资源管理
spark on k8s的动态资源分配和external shuffle Service以及任务的队列资源管理
806 0
下一篇
无影云桌面