Spark 算子详解及优化1 | 学习笔记

简介: 快速学习 Spark 算子详解及优化1

开发者学堂课程【大数据实时计算框架Spark快速入门Spark算子详解及优化1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1680


Spark  算子详解及优化1


内容介绍:

一、优先级

二、Parallelized 算子

三、External Datasets 算子

四、Tranformations 算子

五、代码样例

六、Mapoperater  与 MapPartionsoperater  的区别


一、优先级

在代码里优先级最高,其次是在提交时,再其次是 sparkinv.sh ,最后是源码写的默认配置。


二、Parallelized 算子

Parallelized  可以并行化一个集合把一个集合变成一个 RDD


三、External Datasets 算子

textfile 默认选用   Hadoop   里面的类去读取,用 inputformat 进行切割。


四、Tranformations 算子

Tranformations :罗列了一些延迟操作的算子

map 算子对每个元素进行操作

fliter 过滤


五、代码样例

Mapoperater.java 步骤

首先创建一个  List ,接着通过 parallelized 方法把  List 并行化为一个 RDD ,接着对它来进行算子化操作,再接着调用 foreach 进行打印。


六、Mapoperater 与 MapPartionsoperater 的区别

map 算子:一次就处理一个 partition 的一条数据!

mapPartitions 算子:一次处理一个 partition 中所有的数据!

推荐的使用场景:如果你的 RDD 的数据不是特别多,那么采用 MapPartitions 算子代替 map 算子,可以加快处理速度

比如说100亿条数据,你一个 partition 里面就有 10 亿条数据,不建议使用mapPartitions ,因为一下子返回大量数据可能会导致内存溢出。

MapPartionsoperater 算子可以说是对 Mapoperate 算子级别的优化。

目录
打赏
0
0
0
0
42
分享
相关文章
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
670 0
Spark如何优化?需要注意哪些方面?
【10月更文挑战第10天】Spark如何优化?需要注意哪些方面?
109 6
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
102 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
128 0
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
|
11月前
|
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
174 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问