1.上传小文件到集群
先确保你的Hadoop集群启动起来了:
先创建一个文件夹:
然后上传一个本地的小文件word.txt:
可以发现上传成功:
2.上传大文件到集群
传jdk到根目录:
3.执行wordcount程序
接下来执行一个wordcount程序看看yarn是怎么工作的,刚才上传数据不涉及到yarn,yarn是资源的调度,只有有mapreduce这种计算任务的时候才会执行:
来hdfs中看看数据的结果:
来看一下任务运行的页面:
4.配置历史服务器
当我们查看历史运行情况的时候,会报错,因为我们还没配置历史服务器,为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:
在/opt/module/hadoop-3.1.3/etc/hadoop目录下更改mapred-site.xml文件:
vim mapred-site.xml
在该文件里面增加如下配置:
<!-- 历史服务器端地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020</value> </property> <!-- 历史服务器web端地址 --> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop102:19888</value> </property>
然后执行分发命令,分发到103和104上:
然后启动历史服务器进程:
mapred --daemon start historyserver
jps一下就会发现已经启动了历史服务器进程:
我们重新上传一个文件:
上传成功后我们就可以查看历史记录了:
5.配置日志的聚集
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。
开启日志聚集功能具体步骤如下:
1.在etc/hadoop目录下配置yarn-site.xml:
<!-- 开启日志聚集功能 --> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 设置日志聚集服务器地址 --> <property> <name>yarn.log.server.url</name> <value>http://hadoop102:19888/jobhistory/logs</value> </property> <!-- 设置日志保留时间为7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>
2.分发配置:
xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml • 1
3.在103上关闭NodeManager 、ResourceManager和HistoryServer
sbin/stop-yarn.sh mapred --daemon stop historyserver
4.在103上:start-yarn.sh
5.在102上:mapred --daemon start historyserver
后面执行的任务就可以查看日志了,我们再执行一个任务:
点击后就可以看到了:
6.集群启动/停止方式总结
1.各个模块分开启动/停止(配置ssh是前提)常用
(1)整体启动/停止HDFS
start-dfs.sh/stop-dfs.sh
(2)整体启动/停止YARN
start-yarn.sh/stop-yarn.sh
2.各个服务组件逐一启动/停止
(1)分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
(2)启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager
7.编写Hadoop集群常用脚本
Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh
cd /home/atxiaoyu/bin
vim myhadoop.sh
输入代码:
#!/bin/bash if [ $# -lt 1 ] then echo "No Args Input..." exit ; fi case $1 in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh" echo " --------------- 启动 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh" echo " --------------- 启动 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver" ;; "stop") echo " =================== 关闭 hadoop集群 ===================" echo " --------------- 关闭 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver" echo " --------------- 关闭 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh" echo " --------------- 关闭 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh" ;; *) echo "Input Args Error..." ;; esac
保存后推出,赋予脚本权限:
chmod +x myhadoop.sh
查看三台服务器Java进程脚本:jpsall
当我们想查看服务器进程时,在某一台服务器上jps出来只是这个服务器的进程,那我们如何在一台服务器上jps后其他服务器的进程也显示出来呢?
cd /home/atxiaoyu/bin
vim jpsall
输入代码:
#!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo =============== $host =============== ssh $host jps done
保存后推出,赋予脚本权限:
chmod +x jpsall
分发/home/atguigu/bin目录,保证自定义脚本在三台机器上都可以使用
xsync /home/atxiaoyu/bin/