spark有许多的运行模式,大致有:
1、local:一般是调试代码的时候用,可以再本地local。因为spark的程序本身就带一个main函数。
2、 standalone cluster:就是spark'自身提供守护进程,启动spark的executor节点的。
3、spark on Mesos:这个是spark原生就支持的分布式调度资源框架上运行起来的,不过国内较少使用,对hadoop生态的其它组件也支持的不好。
4、spark on Yarn:这个是目前推荐使用的,也是国内用的比较多,因为一般用spark的集群可能也会运行一些hadoop mr的job。
在emapreduce上就是spark on yarn的模式在运行的。
大数据计算实践乐园,近距离学习前沿技术