1.首先需要理解下Driver 和Executor的概念
Spark的driver理解和executor理解_driver stacktrace_三 丰的博客-CSDN博客
2.累加器
Spark共享变量(广播变量、累加器)_spark广播变量_SunnyRivers的博客-CSDN博客
3.广播变量
200MB以下才建议broadcast,太大的数据建议:两个DataFrame/rdd可以直接关联
Spark共享变量(广播变量、累加器)_spark广播变量_SunnyRivers的博客-CSDN博客
可以参考:
src/main/java/com/vince/xq/HdfsToRedis.java · 诸葛子房/spark-redis - Gitee.com
4.Executor端数据拉到Driver端
使用collect