[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

2017-01-06 915

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 一、机器环境系统：MAC OSHadoop:2.7.3Hbase:1.2.4JDK: 1.8.0_112二、配置SSH免密码登录第一步：打开terminal，进入根目录，运行命令： cd第二步: 显示隐藏文件，这时还没有.

一、机器环境

系统：MAC OS
Hadoop:2.7.3
Hbase:1.2.4
JDK: 1.8.0_112

二、配置SSH免密码登录

第一步：打开terminal，进入根目录，运行命令：

cd

第二步: 显示隐藏文件，这时还没有.ssh文件夹

        ls –a

第三步：生成密钥

    ssh-keygen -t rsa -P ""

这里写图片描述
第四步，进入.ssh文件夹，运行：

cat id_rsa.pub >> authorized_keys

第五步: ssh登录

ssh localhost

这里写图片描述

三、安装Hadoop 2.7.3

3.1下载Hadoop

Hadoop下载地址：http://hadoop.apache.org/releases.html
下载hadoop-2.7.3.tar.gz，大约204MB。
下载后解压缩:

sudo tar –zxvf hadoop-2.7.3.tar.gz

Hadoop有三种安装模式：单机模式、伪分布式模式、分布式模式。

3.2运行Hadoop单机模式

解压安装文件之后，就是单机模式，运行wordcount测试是否安装成功。
第一步：在hadoop-2.7.3目录下新建input文件夹。

sudo mkdir input

第二步：在input文件夹下新增2个文本文件用于测试。

 echo 'hello world' > file1.txt
 echo 'hello hadoop' > file2.txt

第三步：运行wordcount例子

sudo ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-   
mapreduce-examples-2.7.3.jar wordcount input/ output

这里写图片描述
No news is good news，没waring、没error就说明正确运行。
第四步：查看运行结果：

cat output/part-r-00000

统计结果:

hadoop  1
hello   2
world   1

这里写图片描述

3.3 Hadoop伪分布式模式

3.3.1修改hadoop-env.sh

文件位置： hadoop-2.7.3/etc/hadoop/hadoop-env.sh

注释掉 HADOOP_OPTS

#export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"

改为:

export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="

3.3.2修改core-site.xml

文件位置： hadoop-2.7.3/etc/hadoop/core-site.xml
修改为如下配置：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/Cellar/hadoop-2.7.3/hdfs/tmp</value>
        <description>A base for other temporary directories</description>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

其中/Users/bee/Documents/bd/hadoop-2.7.3/hdfs/tmp可以自定义. fs.default.name 保存了NameNode的位置，HDFS和MapReduce组件都需要用到它，这就是它出现在core-site.xml 文件中而不是 hdfs-site.xml文件中的原因。

3.3.3修改mapred-site.xml.template

<configuration>
     <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9010</value>
    </property>
</configuration>

变量mapred.job.tracker 保存了JobTracker的位置，因为只有MapReduce组件需要知道这个位置，所以它出现在mapred-site.xml文件中。

3.3.4修改hdfs-site.xml

变量dfs.replication指定了每个HDFS数据库的复制次数。 通常为3, 由于我们只有一台主机和一个伪分布式模式的DataNode，将此值修改为1。

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

3.4启动hadoop

3.4.1格式化hdfs

./bin/hadoop namenode -format

这里写图片描述

3.4.2启动Hadoop

运行启动命令:

./sbin/start-all.sh

查看进程：

jps

启动成功之后可以看到NodeManager、NameNode、SecondaryNameNode、ResourceManager这几个进程。

2338 NodeManager
2389 Jps
1900 NameNode
2108 SecondaryNameNode
2238 ResourceManager

这里写图片描述

访问HDFS的web端口: http://localhost:50070
这里写图片描述

四、安装Hbase 1.2.4

4.1 Hbase下载

http://hbase.apache.org/
下载后解压缩。

4.2 单机运行

查看Hbase版本:

 ./bin/hbase version

这里写图片描述

启动Hbase:

./bin/start-hbase.sh

这里写图片描述
进入Hbase shell:

 ./bin/hbase shell

这里写图片描述

4.3伪分布式运行

4.3.1 第一步:修改hbase-env.sh

文件位置: hbase-1.2.4/conf/hbase-env.sh
开启HBASE_MANAGES_ZK,改值默认是注释的，作用是：使用自带的ZooKeeper。我们为了方便，使用Hbase自带的ZooKeeper:

    export HBASE_MANAGES_ZK=true

4.3.2 第二步:修改hbase-site.xml

<property>
        <name>hbase.rootdir</name>
        <value>hdfs://localhost:9000/hbase</value>
</property>
<property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
</property>

4.3.3启动Hbase

启动之前，先启动hadoop:

    ./sbin/start-all.sh

再启动hbase:

  ./bin/start-hbase.sh

启动hbase后输入jps，显示HMaster，则成功.

五、HDFS 50070无法访问

2017年5月12日更新。

这两天启动Hadoop发现50070端口无法访问，仔细核对了配置，并且格式化了namenode，就是无法访问！死活找不到原因，今天终于找到了。

因为要破解idea，我在/etc/hosts文件中加了一行：

0.0.0.0 account.jetbrains.com

注释掉，Hadoop恢复正常。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一、机器环境

二、配置SSH免密码登录

三、安装Hadoop 2.7.3

3.1下载Hadoop

3.2运行Hadoop单机模式

3.3 Hadoop伪分布式模式

3.3.1修改hadoop-env.sh

3.3.2修改core-site.xml

3.3.3修改mapred-site.xml.template

3.3.4修改hdfs-site.xml

3.4启动hadoop

3.4.1格式化hdfs

3.4.2启动Hadoop

四、安装Hbase 1.2.4

4.1 Hbase下载

4.2 单机运行

4.3伪分布式运行

4.3.1 第一步:修改hbase-env.sh

4.3.2 第二步:修改hbase-site.xml

4.3.3启动Hbase

五、HDFS 50070无法访问

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一、机器环境

二、配置SSH免密码登录

三、安装Hadoop 2.7.3

3.1下载Hadoop

3.2运行Hadoop单机模式

3.3 Hadoop伪分布式模式

3.3.1修改hadoop-env.sh

3.3.2修改core-site.xml

3.3.3修改mapred-site.xml.template

3.3.4修改hdfs-site.xml

3.4启动hadoop

3.4.1格式化hdfs

3.4.2启动Hadoop

四、安装Hbase 1.2.4

4.1 Hbase下载

4.2 单机运行

4.3伪分布式运行

4.3.1 第一步:修改hbase-env.sh

4.3.2 第二步:修改hbase-site.xml

4.3.3启动Hbase

五、HDFS 50070无法访问

热门文章

最新文章

相关课程

相关电子书

相关实验场景