hadoop大数据集群环境搭建步骤----安装伪分布式
所需软件: vmware workstation 11.0
jdk1.7.0_67
hadoop-2.7.3
filezilla FTP工具
开始搭建步骤:
-
先安装一台linux服务器,(此步忽略) 需要的童鞋请到网上搜索安装linux系统
-
关防火墙
-
service iptables stop
-
2.设置IP地址
-
vi /etc/sysconfig/network-scripts/ifcfg-eth0
-
或者图像化修改!
-
3.设置network文件hosts映射文件
-
vi /etc/hosts
-
vi /etc/sysconfig/network
-
4.安装jdk
-
上传JDK解压
-
配置环境变量:
-
vi /etc/profile
-
source /etc/profile
-
5.安装hadoop
-
上传 hadoop-2.7.3.tar.gz
-
解压
-
6.配置hadoop:
-
注意:配置过程可以参考:
-
离线开发文档:
-
D:\hadoop\tools\hadoop-2.7.3\hadoop-2.7.3\share\doc\hadoop\index.html
-
在线文档:
-
配置:
-
core-site.xml:
-
<!--配置hdfs系统的地址和端口-->
-
<property>
-
<name>fs.defaultFS</name>
-
<value>hdfs://Hadoop:9000</value> 端口:8020
-
</property>
-
<property>
-
<name>fs.defaultFS</name>
-
<value>hdfs://hadoop-yarn.beicai.com:8020</value>
-
</property>
-
<property>
-
<name>hadoop.tmp.dir</name>
-
<value>/opt/modules/hadoop-2.5.0/data/tmp</value>
-
</property>
-
hdfs-site.xml:
-
<!--配置数据块的副本数-->
-
<property>
-
<name>dfs.replication</name>
-
<value>1</value>
-
</property>
-
-
先把mapred-site.xml.template 重命名为mapred-site.xml
-
maperd-site.xml:
-
<!--使用yarn管理mapreduce job-->
-
<property>
-
<name>mapreduce.framework.name</name>
-
<value>yarn</value>
-
</property>
-
-
yarn-site.xml:
-
<!--nodemanager节点使用mapreduce的shuffle过程-->
-
<property>
-
<name>yarn.nodemanager.aux-services</name>
-
<value>mapreduce_shuffle</value>
-
</property>
-
-
hadoop-env.sh:
-
配置jdk:
-
export JAVA_HOME=/opt/jdk
-
-
-
配置ssh免登陆:
-
(1).cd /root/.ssh/
-
(2).生成rsa秘钥:
-
ssh-keygen -t rsa 一路回车!!!
-
(3).查看秘钥:
-
ls
-
id_rsa id_rsa.pub known_hosts
-
(4).将公钥copy给自己!
-
ssh-copy-id root@Hadoop(ssh-copy-id Hadoop有什么区别?)
-
然后可以查看目录下:
-
authorized_keys
-
-
格式化集群:
-
hdfs namenode -format
-
格式化查看日志:
-
17/02/17 16:18:30 INFO common.Storage: Storage directory
-
/tmp/hadoop-root/dfs/name has been successfully formatted
-
因为没配置指定的dfs目录(元数据和数据目录:name和data),所以name和data在Linux系统的tmp目录下:
-
-
启动集群:
-
启动hdfs模块:
-
./start-dfs.sh
-
-
看hdfs启动进程:jps
-
2608 DataNode
-
2480 NameNode
-
2771 SecondaryNameNode
-
-
启动yarn模块:
-
./start-yarn.sh
-
看hdfs启动进程:jps
-
2958 ResourceManager
-
3055 NodeManager
-
-
上传文件到hdfs:
-
./hadoop fs -put /file /
-
-
/tmp/hadoop-root/dfs/目录下多出一个data目录,存放数据块
-
-
/tmp/hadoop-root/dfs/name目录存放的是元数据!
-
-
-
查看webUI:
-
http://192.168.57.2:50070/
-
-
192.168.57.2 是namenode的IP地址
-
-
-
配置hadoop环境变量:
-
export HADOOP_HOME=/opt/hadoop-2.7.1
-
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
-
刷新:
-
source /etc/profile
-
-
此后就可以在任何路径下使用hadoop下的bin和sbin的脚本!
-
本文转自 ChinaUnicom110 51CTO博客,原文链接:http://blog.51cto.com/xingyue2011/1899391