Spark 算子详解及优化4| 学习笔记

简介: 快速学习 Spark 算子详解及优化4

开发者学堂课程【大数据实时计算框架  Spark  快速入门Spark  算子详解及优化4】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1683


Spark  算子详解及优化4


内容简介:

一、Coalesce  算子的功能

二、Coalesce  算子使用场景

三、RDD.foreach(println)


一、Coalesce  算子的功能

coalesce  算子,功能是将  RDD  的  partition  的数量缩减,将一定的数据压缩到更少的  partition  分区中去,从而让各个  partition  中的数据都更加紧凑。

当  partition  数据量太少时,用一个线程运行  task  是没有必要的,把  task  通过driver  端远程传输到  executer  ,可能传  task  的时间可能比执行数据的时间更长,造成浪费。

但是数据量也不能太大,因为可能会造成内存溢出,coalesce  可以很好解决此问题。


二、Coalesce  算子使用场景

使用场景:在  filter  算子应用之后会优化一下使用  coalesce  算子


三、RDD.foreach(println)

RDD.foreach(println)  可以直接打印,调用  foreach   的打印是在  worker  集群中执行的,因为是算子操作,RDD collect  会把数据加载到  driver  端,可能会造成内存溢出(因此需要慎用)。

相关文章
|
6月前
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
661 0
|
8月前
|
分布式计算 监控 大数据
如何优化Spark中的shuffle操作?
【10月更文挑战第18天】
|
9月前
|
存储 分布式计算 监控
Spark如何优化?需要注意哪些方面?
【10月更文挑战第10天】Spark如何优化?需要注意哪些方面?
109 6
|
9月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
102 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
9月前
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
128 0
|
11月前
|
存储 分布式计算 供应链
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
|
11月前
|
分布式计算 并行计算 数据处理
|
11月前
|
大数据 RDMA
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
172 0
|
缓存 分布式计算 监控
Spark 优化方案
Spark 优化方案
151 1
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
96 0

热门文章

最新文章