一:下载Hadoop
二:安装说明
http://hadoop.apache.org/docs/r2.5.2/hadoop-project-dist/hadoop-common/SingleCluster.html
三:查看是否安装jdk
四:强力卸载已将安装的JDK
空格分开卸载项。利用--nodeps参数强力卸载
5:上传文件Hadoop和jdk
:6:解压jdk文件到指定目录
tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/
7:设置jdk环境变量
vi /etc/profile
末尾添加java环境变量
8:环境变量生效
source /etc/profile
9:解压hadoop
tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/
10:修改hadoop环境文件
vi /opt/modules/hadoop-2.5.0/etc/hadoop/hadoop-env.sh
修改java环境变量
11、hadoop三种启动模式
本地模式
未分布式模式
分布式模式
12、本地模式Local (Standalone) Mode
说明:part-r-00000 表示是MapReduce跑出来的结果。
以dfs开始a-z不限的结果只有一个。
样例 统计下面文本中各单词出现的次数
命令说明:jar 命令运行MapReduce样例 传入参数统计 wcinput目录下所有文件各单词出现的次数,并把结果输出到wcoutput目录下
查看执行结果
13、配置core-site.xml 设置HDFS地址
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.57.192:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.5.0/data/tmp</value>
</property>
</configuration>
14、配置hdfs-site.xml
文件分布式存储备份个数
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
15、格式化HDFS的NAMENODE
bin/hdfs namenode -format
16启动HDFS的主节点NameNode
启动命令:sbin/hadoop-daemon.sh start namenode
说明:hadoop-daemon.sh 是hadoop的守护进程,利用它启动HDFS的主节点。
17、启动HDFS的从节点DataNode
sbin/hadoop-daemon.sh start datanode
18、查看是否启动成功
jps
19、开通8020/50070端口
vi /etc/sysconfig/iptables
20、访问HDFS的web页面
21、进入HDFS文件系统
22、创建HDFS文件目录
创建HDFS文件系统目录
bin/hdfs dfs -mkdir -p /user/beifeng/mapreduce/wordcount/input
23、上传wc.input 文本文件
上传wc.input命令:
bin/hdfs dfs -put wcinput/wc.input /user/beifeng/mapreduce/wordcount/input
把wc.input 文件上传到/user/beifeng/mapreduce/wordcount/input目录下
24、报错:datanode 错误。解决方法
25、上传文件成功并查看
上传用命令:-put
26、通过HDFS服务器系统统计单词数量
命令:bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/beifeng/mapreduce/wordcount/input/ /user/beifeng/mapreduce/wordcount/output
27、查看
命令bin/hdfs dfs -cat /user/beifeng/mapreduce/wordcount/output/part*