RDD 的分区和 Shuffle 查看分区 | 学习笔记

简介: 快速学习 RDD 的分区和 Shuffle 查看分区

开发者学堂课程【大数据Spark2020最新课程(知识精讲与实战演练)第二阶段RDD 的分区和 Shuffle 查看分区学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11991


RDD 的分区和 Shuffle 查看分区


内容介绍

一、查看分区的方法

二、验证

 

一、查看分区的方法

本节继续学习 RDD 的分区和 Shuffle 的过程,讲解如何查看分区。

第一种方式通过 webui 的方式:

首先进入 shell 窗口:

image.png

因为有一些分区操作放在集群里更直观。

编写命令如下:

cd/export/servers/spark

bin/spark-shell --master local[6]

//通过 master 指定 spark shell 的交互式窗口,交互式窗口的运行的位置呢,可以指定 local,也可以指定spark//node01等等。为了便于我们的控制,所以呢,我们直接指定 local[6] 就可以,指定6个分区。

打开 spark

image.png

注意:其中的 Spark context available as'sc 创建了一个对象,叫做 SC,类型是 spark context

Spark context Web UI available athttp://172.21.0.11:4040

//sparkshell 为我们提供了一个 ui 4040的端口上。

继续编写代码:

val rdd1 = sc.parallelize(Seq(12345678910))

拿到 RDD 对象:

image.png

通过创建 RDD并不能直接执行 RDD,只能拿到一个 RDD 对象,执行 RDD 需要调用 RDD1中的 action

每一次调用 action,就会生成一个 job 放在集群当中。第二步就是分阶段,每个阶段叫做一个 stages 。接下来先调用 collect。执行,

rdd1.collect()

获取到结果如下:

image.png

然后通过浏览器打开 node01 4040端口:

image.png

此处指 RDD 6个分区,在开启 spark shell 窗口时,指定的 master local[6] 。然后  :quit  退出。

猜测:通过 local[6] 来开启 spark shell ,默认创建一个 ID 时,就会有六个分区。接下来验证想法。

 

二、验证

编写代码:

bin/spark-shell --master local[8]

指定 local[8]

image.png

val rdd1 = sc.parallelize(Seq(12345678910))

image.png

rdd1.collect()

再次进入浏览器打开 node01 4040端口:

image.png

默认分区变为8。证明猜测正确。

第二种查看分区的方法:

rdd1.partitions

rdd1.partitions.size

可以查看集合数量,通过 size 查看有8个分区,partition 这个集合中保留分区的信息。

image.png

查看分区的2种方式:

1.  通过 webui 的方式。

2.   通过partitions的方式。

相关文章
|
分布式计算
29 MAPREDUCE中的分区Partitioner
29 MAPREDUCE中的分区Partitioner
95 0
|
5月前
|
SQL 存储 HIVE
hive分区与分桶
hive分区与分桶
75 1
|
8月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
157 1
|
8月前
|
分布式计算 监控 大数据
Spark RDD分区和数据分布:优化大数据处理
Spark RDD分区和数据分布:优化大数据处理
|
8月前
|
分布式计算 Hadoop 大数据
Spark 【分区与并行度】
Spark 【分区与并行度】
|
分布式计算 算法 Java
Spark shuffle、RDD 算子【重要】
Spark shuffle、RDD 算子【重要】
393 0
|
分布式计算 并行计算 Spark
|
存储 缓存 分布式计算
RDD 的分区和 Shuffle 介绍 | 学习笔记
快速学习 RDD的分区和Shuffle介绍
RDD 的分区和 Shuffle 介绍 | 学习笔记
|
分布式计算 大数据 Shell
RDD 的分区和 shuffle 创建 RDD 时指定分区数 | 学习笔记
快速学习 RDD 的分区和 shuffle 创建 RDD 时指定分区数
105 0
RDD 的分区和 shuffle 创建 RDD 时指定分区数 | 学习笔记
|
分布式计算 大数据 Scala
RDD 的分区和 Shuflee_通过算子重分区 | 学习笔记
快速学习 RDD 的分区和 Shuflee_通过算子重分区
RDD 的分区和 Shuflee_通过算子重分区 | 学习笔记

热门文章

最新文章