Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一):https://developer.aliyun.com/article/1597085
3. 配置yarn-site.xml
编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml
:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
4. 配置mapred-site.xml
复制默认模板并进行修改:
cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
编辑mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5. 配置slaves
文件
编辑$HADOOP_HOME/etc/hadoop/slaves
文件,列出所有DataNode节点:
slave1 slave2
6. 分发配置文件到所有节点
将配置好的Hadoop文件夹分发到所有节点:
scp -r /usr/local/hadoop slave1:/usr/local/ scp -r /usr/local/hadoop slave2:/usr/local/
五、启动Hadoop集群
1. 格式化HDFS
在master节点上运行以下命令来格式化HDFS:
hdfs namenode -format
2. 启动HDFS和YARN
依次启动HDFS和YARN服务:
start-dfs.sh start-yarn.sh
3. 验证集群状态
启动Hadoop之后,可以通过Web界面查看集群状态:
- NameNode UI:
http://master:9870
- ResourceManager UI:
http://master:8088
4. 验证节点连通性
在master节点上,执行以下命令以检查节点状态:
hdfs dfsadmin -report yarn node -list
六、测试集群
运行Hadoop提供的示例程序,验证集群是否正常工作:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output
验证输出结果
查看生成的结果文件:
hdfs dfs -cat /output/part-r-00000
七、总结
本文涵盖了从设置主机名、配置SSH免密登录、安装Java环境到Hadoop配置与启动的详细步骤。通过这些步骤,你可以成功搭建一个Hadoop集群,为大数据学习和实际应用打下坚实的基础。下一步,你可以尝试
配置高可用性或对集群进行性能优化。
八、附录
分发脚本
#!/bin/bash if [ $# -lt 1 ] then echo Not Enough Arguemnet! exit; fi for host in 10.0.13.239 10.0.13.253 10.0.13.196 do echo =============== $host ================= for file in $@ do if [ -e $file ] then pdir=$(cd -P $(dirname $file); pwd) fname=$(basename $file) ssh -p 36000 $host "mkdir -p $pdir" rsync -e 'ssh -p 36000' -av $pdir/$fname $host:$pdir else echo $file does not exists! fi done done