一、 任务描述
本实验任务主要完成基于ubuntu环境的Hadoop单机部署、配置和调试工作。通过完成本实验任务,要求学生熟练掌握Hadoop单机部署方法,为后续实验的开展奠定Hadoop平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。
二、 任务目标
掌握Hadoop单机环境的搭建、用途和调试。
三、 任务环境
本次环境是:Ubuntu16.04 + jdk1.8.0_73 +hadoop-2.7.3
四、 任务分析
hadoop的单击部署主要步骤为解压,配置环境变量,配置hadoop-env.sh文件。
五、 任务实施
步骤1、安装所需软件
右击Ubuntu操作系统桌面,从弹出菜单中选择【Open in Terminal
】命令打开终端。在终端中输入命令【cd /simple/soft
】进入软件包的所在文件夹中,并通过【ls
】查看文件夹下所有软件。如图1所示。
Hadoop是使用JAVA写的,所以需要先安装JAVA环境。在simple目录下执行命令【tar -zxvf jdk-8u73-linux-x64.tar.gz -C /simple
】解压JAVA的tar包。如图2所示
Java解压完成之后,然后开始安装Hadoop,首先在simple目录下执行解压命令【tar -zxvf hadoop-2.7.3.tar.gz -C /simple
】。如图3所示
压缩包解压之后,需要配置环境变量,执行命令【vim /etc/profile
】修改配置。把Java和Hadoop的安装目录配置到环境变量中。如图4所示
然后让配置文件生效:【在这里插入代码片
】。如图5所示
♥ 知识链接
环境变量的意义
环境变量的意义
环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所将使用到的信息。例如Windows和DOS操作系统中的path环境变量,当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到path中指定的路径去找。用户通过设置环境变量,来更好的运行进程。
当我们安装完一个工具后,需要在/etc/profile中设置该工具的环境变量,然后查看是否安装成功。例如:查看Hadoop是否安装成功就用命令Hadoop -version
。
步骤2、配置hadoop的配置文件
切换到操作目录下查看配置文件,执行编辑命令【vim hadoop-env.sh
】来进入到配置文件命令行模式。如图6所示
在命令行模式下,按i键之后进入编辑状态(此时文件下方出现了”INSERT”的字样),找到【#export JAVA_HOME=…】的语句,把注释符号”#”去掉(”#”表示把内容注释掉了),把路径修改为本机JAVA的安装目录: 【export JAVA_HOME=/simple/jdk1.8.0_73】。如图7所示
♥ 知识链接
单机模式
单机模式:默认情况下运行为一个单独机器上的独立Java进程,主要用于调试环境
六、 任务测试
在Hadoop的安装目录下,创建input目录,然后把目录下的所有以xml结尾的文件拷贝到input目录中,如图8所示。
我们要运行的例子在hadoop的安装目录下,名称叫做hadoop-mapreduce-examples-2.7.3.jar。运行命令如下:【hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output “[a-z.]+”
】。该命令是使用Hadoop的自带的样例,在input中统计含有字母“a-z“的单词的个数。如图9所示。
其中,output是输出文件夹,它由程序自动创建
【cd output
】到创建好的输出目录output进行查看,output目录下产生有两个文件。我们使用cat命令来查看文件内容【cat part-r-00000
】。如图11所示