Spark 算子详解及优化4| 学习笔记

简介: 快速学习 Spark 算子详解及优化4

开发者学堂课程【大数据实时计算框架  Spark  快速入门Spark  算子详解及优化4】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1683


Spark  算子详解及优化4


内容简介:

一、Coalesce  算子的功能

二、Coalesce  算子使用场景

三、RDD.foreach(println)


一、Coalesce  算子的功能

coalesce  算子,功能是将  RDD  的  partition  的数量缩减,将一定的数据压缩到更少的  partition  分区中去,从而让各个  partition  中的数据都更加紧凑。

当  partition  数据量太少时,用一个线程运行  task  是没有必要的,把  task  通过driver  端远程传输到  executer  ,可能传  task  的时间可能比执行数据的时间更长,造成浪费。

但是数据量也不能太大,因为可能会造成内存溢出,coalesce  可以很好解决此问题。


二、Coalesce  算子使用场景

使用场景:在  filter  算子应用之后会优化一下使用  coalesce  算子


三、RDD.foreach(println)

RDD.foreach(println)  可以直接打印,调用  foreach   的打印是在  worker  集群中执行的,因为是算子操作,RDD collect  会把数据加载到  driver  端,可能会造成内存溢出(因此需要慎用)。

相关文章
|
5月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
207 1
|
2月前
|
存储 分布式计算 供应链
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
|
2月前
|
分布式计算 并行计算 数据处理
|
2月前
|
大数据 RDMA
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
33 0
|
5月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
|
4月前
|
缓存 分布式计算 监控
Spark 优化方案
Spark 优化方案
|
4月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
30 0
|
5月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
136 2
|
5月前
|
分布式计算 Hadoop Java
Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
106 1
|
5月前
|
存储 分布式计算 Scala
bigdata-36-Spark转换算子与动作算子
bigdata-36-Spark转换算子与动作算子
39 0
下一篇
无影云桌面