二、hadoop伪分布搭建

简介:   环境                                               虚拟机:VirtualBox Ubuntu:14.04 hadoop:2.6   安装                                              1、创建hadoop用户 sudo useradd -m hadoop -s/bin/bash 【Ubuntu终端复制粘贴快捷键】 【在Ubuntu终端窗口中,复制粘贴的快捷键需要加上shift,即粘贴是 ctrl+shift+v。

  环境                                              

虚拟机:VirtualBox

Ubuntu:14.04

hadoop:2.6

  安装                                             

1、创建hadoop用户

sudo useradd -m hadoop -s/bin/bash

Ubuntu终端复制粘贴快捷键】

【在Ubuntu终端窗口中,复制粘贴的快捷键需要加上shift,即粘贴是 ctrl+shift+v。】

使用如下命令修改密码,按提示输入两次密码 hadoop :

sudo passwd hadoop

可为 hadoop 用户增加管理员权限,方便部署,避免一些对新手来说比较棘手的权限问题:

sudo adduser hadoop sudo

2、切换到hadoop用户下

su hadoop

3、安装SSH server、配置SSH无密码登陆

集群、单节点模式都需要用到SSH登陆(类似于远程登陆,你可以登录某台Linux电脑,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:

sudo apt-get install openssh-server

安装后,可以使用如下命令登陆本机:

ssh localhost


此时会有提示(SSH首次登陆提示),输入 yes 。然后按提示输入密码hadoop,这样就登陆到本机了。

但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。

首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:

  
  
  1. exit # 退出刚才的 ssh localhost
  2. cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
  3. ssh-keygen -t rsa # 会有提示,都按回车就可以
  4. cat id_rsa.pub >> authorized_keys # 加入授权

此时再用 ssh localhost 命令,无需输入密码就可以直接登陆


4、安装Java环境

Java环境可选择 Oracle 的 JDK,或是 OpenJDK,按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的,新版本在 OpenJDK 1.7 下是没问题的。为图方便,这边直接通过命令安装 OpenJDK 7。

sudo apt-get install openjdk-7-jre openjdk-7-jdk

OpenJDK 默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (32位系统则是 /usr/lib/jvm/java-7-openjdk-i86 ,可通过命令dpkg -L openjdk-7-jdk查看到)。安装完后就可以使用了,可以用java -version 检查一下。

接着需要配置一下 JAVA_HOME 环境变量,为方便,我们在 ~/.bashrc 中进行设置(扩展阅读:设置Linux环境变量的方法和区别):

vi ~/.bashrc

在文件最前面添加如下单独一行(注意 = 号前后不能有空格),并保存:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

如下图所示(该文件原本可能不存在,内容为空,这不影响):


配置JAVA_HOME变量

接着还需要让该环境变量生效,执行如下代码:

source ~/.bashrc# 使变量设置生效

echo $JAVA_HOME# 检验是否设置正确

设置正确的话,会输出如下结果:


成功配置JAVA_HOME变量

5、安装hadoop

进入hadoop所在的目录将其解压到/usr/local/hadoop

 
  • sudo tar -zxvf ./hadoop-2.6.0.tar.gz -C /usr/local # 解压到/usr/local中
  • cd /usr/local/
  • sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为hadoop
  • sudo chown -R hadoop:hadoop ./hadoop # 修改文件权限
  • Hadoop解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示命令用法:

    cd ./hadoop

    ./bin/hadoop

    6、hadoop伪分布配置

    Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件core-site.xmlhdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

    修改配置文件 core-site.xml (vim /usr/local/hadoop/etc/hadoop/core-site.xml),将当中的

    <configuration>
    </configuration>
    

    修改为下面配置:

    <configuration>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/usr/local/hadoop/tmp</value>
            <description>Abase for other temporary directories.</description>
        </property>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    

    同样的,修改配置文件 hdfs-site.xml

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
    </configuration>
    
    修改配置文件 yarn-site.xml
    <configuration> 

         <property>  

            <name>mapreduce.framework.name</name>  

            <value>yarn</value> 

        </property>  
        <property> 

            <name>yarn.nodemanager.aux-services</name>  

            <value>mapreduce_shuffle</value>  

       </property> 

    </configuration> 

    配置完成后,执行 namenode 的格式

    bin/hdfs namenode -format

    成功的话,会看到successfully formatted 的提示,且倒数第5行的提示如下,Exitting with status 0 表示成功,若为Exitting with status 1 则是出错

    接着开启如下进程

    sbin/start-dfs.sh

    sbin/start-yarn.sh

    至此,所有的已经安装完事,且所有服务都已经启动

     验证                           

    http://127.0.0.1:8088


    http://localhost:50070


    http://127.0.0.1:19888


     提示                           

    每次进入虚拟机系统时必须先进入hadoop用户下(su hadoop),才能开启服务,否则会报错

    参考文章:www.powerxing.com/install-hadoop/

    QQ交流:1923361654

    hadoop完全分布式部署参考:http://blog.csdn.net/gamer_gyt/article/details/51991893

    hadoop单机版部署参考:http://blog.csdn.net/gamer_gyt/article/details/46545303

    相关文章
    |
    SQL 分布式计算 Hadoop
    大数据行业部署实战1:Hadoop伪分布式部署
    大数据行业部署实战1:Hadoop伪分布式部署
    469 0
    |
    7月前
    |
    分布式计算 Hadoop Java
    Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
    Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
    145 0
    |
    分布式计算 Hadoop Java
    hadoop伪分布式搭建(超详细)
    hadoop伪分布式搭建(超详细)
    786 0
    |
    7月前
    |
    分布式计算 Hadoop Java
    我用免费白拿的服务器搭建了一台基于CentOS7的Hadoop3.x伪分布式环境
    我用免费白拿的服务器搭建了一台基于CentOS7的Hadoop3.x伪分布式环境
    124 0
    |
    4月前
    |
    存储 分布式计算 算法
    探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
    在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
    237 2
    |
    7月前
    |
    存储 分布式计算 Hadoop
    【分布式计算框架】Hadoop伪分布式安装
    【分布式计算框架】Hadoop伪分布式安装
    92 2
    |
    6月前
    |
    分布式计算 Hadoop 大数据
    【大数据】Hadoop下载安装及伪分布式集群搭建教程
    【大数据】Hadoop下载安装及伪分布式集群搭建教程
    265 0
    |
    分布式计算 Hadoop Java
    Hadoop伪分布式环境部署(非脚本)
    本实验基于ECS云服务器(centOS7.7)搭建Hadoop伪分布式环境,并通过运行一个MapReduce示例程序熟悉Hadoop平台的使用。
    |
    7月前
    |
    分布式计算 资源调度 Hadoop
    hadoop的伪分布式搭建-带网盘
    hadoop的伪分布式搭建-带网盘
    57 3
    |
    7月前
    |
    存储 分布式计算 Hadoop
    hadoop 安装系列教程二——伪分布式
    hadoop 安装系列教程二——伪分布式
    73 0

    相关实验场景

    更多