1、Spark解决什么问题?
海量数据的计算可以进行离线批处理以及实时流计算。
2、Spark有哪些模块?
核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLlib)
3、Spark有哪些特点?
速度快、使用简单、通用性强、支持多种模式运行
4、Saprk的运行模式
本地模式
集群模式(StandAlone、YARN、K8S)
云模式
5、Spark的运行角色(对比YARN)
Master:集群资源管理(类同ResourceManager)
Worker:单机资源模式(类同NodeManager)
Driver:单任务管理者(类同ApplicationMaster)
Executor:单任务执行者(类同YARN容器内的Task)
Yarn、Spark架构对比
1、YARN主要有4类角色,从两个层面去看:
# 资源管理层面
1、集群资源管理者(Master):ResourceManger(RM)
2、单机资源管理者(Worker):NodeManger
# 任务计算层面
1、单任务管理者(Master):ApplicationMaster
2、单任务执行者(Worker):Task(容器内计算框架的工作角色)
2、Spark主要有4类角色,从两个层面去看:
# 资源管理层面
1、集群资源管理者:Master
2、单机资源管理者:Worker
# 任务计算层面
1、单任务管理者:Driver
2、单任务执行计算者:Executor (干活的)