1.准备两台以上Linux服务器,安装好JDK1.7
2.下载Spark安装包
http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz
3.上传解压安装包
上传spark-1.5.2-bin-hadoop2.6.tgz安装包到Linux上,解压安装包到指定位置。
tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local
4.配置Spark
进入到Spark安装目录
cd /usr/local/spark-1.5.2-bin-hadoop2.6
进入conf目录并重命名并修改spark-env.sh.template文件
cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh
在该配置文件中添加如下配置:
export JAVA_HOME=/usr/java/jdk1.7.0_45 export SPARK_MASTER_IP=node1.itcast.cn export SPARK_MASTER_PORT=7077
保存退出
重命名并修改slaves.template文件
mv slaves.template slaves vi slaves
在该文件中添加子节点所在的位置(Worker节点)
node2.itcast.cn node3.itcast.cn node4.itcast.cn
保存退出
将配置好的Spark拷贝到其他节点上
scp -r spark-1.5.2-bin-hadoop2.6/ node2.itcast.cn:/usr/local/ scp -r spark-1.5.2-bin-hadoop2.6/ node3.itcast.cn:/usr/local/ scp -r spark-1.5.2-bin-hadoop2.6/ node4.itcast.cn:/usr/local/
Spark集群配置完毕,目前是1个Master,3个Work,在node1.itcast.cn上启动Spark集群
/usr/local/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh
5.登录Spark
启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://node1.itcast.cn:8080/
到此为止,Spark集群安装完毕!
6.单点故障解决
现在还有一个很大的问题,那就是Master节点存在单点故障,要解决此问题,就要借助zookeeper,并且启动至少两个Master节点来实现高可靠,配置方式比较简单:
Spark集群规划:node1,node2是Master;node3,node4,node5是Worker
需要安装配置zk集群,并启动zk集群
停止spark所有服务,修改配置文件spark-env.sh
,在该配置文件中删掉SPARK_MASTER_IP并添加如下配置
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark"
1.在node1节点上修改slaves配置文件内容指定worker节点
2.在node1上执行sbin/start-all.sh脚本,然后在node2上执行sbin/start-master.sh启动第二个Master