环境
hadoop-2.7.2
hadoop-2.7.2.tar.gz_免费高速下载|百度网盘-分享无限制
spark-2.1.1-bin-hadoop2.7
链接:https://pan.baidu.com/s/13gHKbWYPRVoq7OjVaURPRQ
提取码:p3z3
复制这段内容后打开百度网盘手机App,操作更方便哦
hadoop安装(单机版)
注意:
注意代码执行的时候是在哪个路径下
注意贴代码的时候有没有需要修改的地方
注意端开放端口
注意搭建环境之前快照一下
确保hadoop安装环境OK
Spark(单机版)安装
1)解压 spark-2.1.1-bin-hadoop2.7tar.gz
2)将spark-env.sh.template 复制并并且重命名为 spark-env.sh
cp spark-env.sh.template spark-env.sh
3)修改spark-env.sh
其中SPARK_MASTER_HOST的值为
4)启动Spark
./sbin/start-all.sh
------关闭Spark
./sbin/stop-all.sh
5)在浏览器输入http://ip:8080/
配置 Job History Server
1)将 spark-2.1.1-bin-hadoop2.7/conf下spark-defaults.conf.template 复制并且重命名为spark-defaults.conf
cp spark-defaults.conf.template spark-defaults.conf
2)修改spark-defaults.conf
修改前
修改后
3)修改spark-env.sh
添加下面配置
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://iZm5ea99qngm2v98asii1aZ:9000/directory"
4)启动HDFS
http://47.105.132.96:50070/explorer.html#/
5)创建 directory
hadoop fs -mkdir /directory
6)启动Spark
./sbin/start-all.sh
http://47.105.132.96:8080/
7)启动 Job History Server
./sbin/start-history-server.sh
http://47.105.132.96:4000/
修改日志文件
目的:使日志文件精简输出
cp log4j.properties.template log4j.properties
修改log4j.properties 配置文件
牛刀小试
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://iZm5ea99qngm2v98asii1aZ:7077 /opt/module/spark-2.1.1-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.1.jar 100