1.spark 基本概念
spark学习笔记(2)spark基本概念和术语解释_攻城的蒂巴格的博客-CSDN博客
2.广播变量和累加器的理解
Spark共享变量(广播变量、累加器)_SunnyRivers的博客-CSDN博客
3.线上实际任务分析
第一部分是driver 日志,第二部分是excutor 日志
4.spark 资源设置
(1)首先检查你的最大并行度(task个数)是否大于申请的vcore个数,如果不是的话,减少executorVcores,使得executorCores*executorNum小于Spark任务的最大并行度。在executor memory不变的情况下,降低executor cores会提高单位vcore的memory使用量。
(2)如果你的Spark任务执行较慢,可提高任务的并行度,充分利用你当前申请的资源。
5.spark sql
Spark 基础教程:wordcount+Spark SQL_诸葛子房_的博客-CSDN博客
从MapReduce 到 Spark ,任务提升100倍