【Spark 调优】Spark 开发调优的十大原则

简介: 【Spark 调优】Spark 开发调优的十大原则

Spark的调优是面试或者笔试考察的重点:总结下


20190505155323677.png


1.开发调优:


原则一:避免创建重复的RDD。


原则二:尽可能复用同一个RDD。


原则三:对多次使用的RDD进行持久化。


20190505155732733.png


原则四:尽量避免使用shuffle类算子 。


原则五:使用map-side预聚合的shuffle操作。


原则六:使用高性能的算子


20190505160004902.png


原则七:广播大变量。


原则八:使用Kryo优化序列化性能。


原则九:优化数据结构。


原则十:对数据进行压缩。


原则十一:合并小文件。  

目录
相关文章
|
8月前
|
SQL 分布式计算 Java
Apache IoTDB开发系统整合之Spark IoTDB Connecter
以下 TsFile 结构为例: TsFile 架构中有三个度量:状态、温度和硬件。
112 0
|
5月前
|
分布式计算 Java 数据库连接
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
38 1
|
5月前
|
分布式计算 大数据 Linux
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
111 0
|
5月前
|
分布式计算 资源调度 大数据
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spark数据调优(文末附完整文档)
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spark数据调优(文末附完整文档)
66 0
|
11月前
|
缓存 分布式计算 Spark
Spark RDD开发
开发步骤
55 0
|
12月前
|
分布式计算 Ubuntu Java
使用IntelliJ Idea开发Spark Streaming流应用程序
使用IntelliJ Idea开发Spark Streaming流应用程序
|
12月前
|
存储 分布式计算 Ubuntu
使用IntelliJ Idea开发Spark应用程序
使用IntelliJ Idea开发Spark应用程序
|
12月前
|
分布式计算 监控 网络协议
Spark Streaming开发基础
Spark Streaming开发基础
|
SQL 数据采集 存储
工作经验分享:Spark调优【优化后性能提升1200%】
工作经验分享:Spark调优【优化后性能提升1200%】
829 1
工作经验分享:Spark调优【优化后性能提升1200%】
|
分布式计算 Java 程序员
spark开发基础之从Scala符号入门Scala
spark开发基础之从Scala符号入门Scala
137 0
spark开发基础之从Scala符号入门Scala