0x00 教程内容
- Spark的获取
- 上传Scala安装包到集群
- 安装与配置Scala
说明:安装Spark之前,请先安装Scala,参考文章:
1、分布式集群环境之Scala的安装与配置(Centos7)
0x01 Spark的获取
1. 官网下载
a. 为了统一,此处下载spark-2.2.0-bin-hadoop2.7.tgz
版本:
https://archive.apache.org/dist/spark/
拉到下面,选择spark-2.2.0-bin-hadoop2.7.tgz
进行下载(如果小版本好不一样也没关系)
2. 关注公众号:邵奈一
a. 回复spark
获取
0x02 上传Spark安装包到集群
1. 上传安装包到虚拟机
a. 可以用XFtp软件上传到master(/home/hadoop-sny/software/
),没有software
目录就新建
0x03 安装与配置Spark
1. 解压Spark包并配置
a. 解压到指定目录~/bigdata/(-C ~/bigdata/,不加-C则解压到压缩包的路径)
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/bigdata/
b. 配置spark-env.sh
cd ~/bigdata/spark-2.2.0-bin-hadoop2.7/conf
cp spark-env.sh.template spark-env.sh
添加JAVA_HOME路径:
vi spark-env.sh
export JAVA_HOME=/usr/local/lib/jdk1.8.0_161
c. 配置slaves
文件
cp slaves.template slaves
添加上从节点主机名:
vi slaves
slave1 slave2
2. 同步到slave1、slave2
a. 同步(因为我们的免密码登录是配了hadoop-sny用户的,所以root用户,还是要输入密码的)
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave1:~/bigdata
scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave2:~/bigdata
3. 配置环境变量
a. 用master上的环境变量
vi ~/.bash_profile
c. 添加内容(此处我们可以指配到Home路径,因为sbin路径下有一些脚本是跟Hadoop的一样的,会冲突不起作用):
export SPARK_HOME=/home/hadoop-sny/bigdata/spark-2.2.0-bin-hadoop2.7 PATH=$PATH:$SPARK_HOME/bin
d. 使环境变量在当前会话生效(一定要记得执行)
source ~/.bash_profile
4. 启动Spark
a. 校验是否安装成功
$SPARK_HOME/sbin/start-all.sh
查看三个节点脚本请参考教程:大数据常用管理集群脚本集合
b. 查看Web UI界面
打开master:8080
端口
0x04 Spark初体验
1. 启动spark-shell
a. 启动并测试一下
spark-shell --master spark://master:7077
1+1
0xFF 总结
请尝试将此教程的WordCount例子打包,并打包到服务器执行:
IntelliJ IDEA开发Spark案例之WordCount
请参考1.的教程,用spark-shell方式完成一个WordCount程序
注意:
a. 目前我只是启动了Spark,Hadoop并没有启动,如果有需要,请记得启动Hadoop等。
b. 如果是用集群模式启动Spark:spark-shell --master spark://master:7077,不能使用file:///来输入文件,要用HDFS,不然会报错。所以,如果想用file:///,则要把spark://master:7077去掉,默认使用本地。