Hadoop的环境搭建以及配置(wordcount示例)(一)

简介: Hadoop的环境搭建以及配置(wordcount示例)

作者使用的是centos7、Vmware16pro。文中的Java和hadoop安装包有需要的可以私信我

安装Java

1.登录centos系统,进入etc/syscon­fig/net­work-scripts中,编辑NAT网卡配置文件。vi ifcfg-ens33

2.配置相关变量

BOOTPROTO=static               #关闭DHCP,可以不做,不影响
ONBOOT=yes                         #开机启动
IPADDR=192.168.253.5          #该虚拟机的ip地址
GATEWAY=192.168.253.2      #网关地址
DNS1=192.168.253.2              #DNS可根据自己网络进行配置

3.重启网卡,使网络配置生效
systemctl restart network
配置成功后,通过ping命令来检查网路是否配置成功

4.关闭防火墙,并关闭开机自启动

[root@master network-scripts]# systemctl stop firewalld.service
[root@master network-scripts]# systemctl disable firewalld.service

如果开启防火墙则无法在web端开启hadoop,并且无法实现文件的上传

5.配置时钟同步

[root@master network-scripts]# yum install ntpdate
[root@master ~]# ntpdate ntp.aliyun.com
 5 Oct 17:13:32 ntpdate[2607]: adjust time server 203.107.6.88 offset -0.304230 sec
[root@master ~]# date
Wed Oct  5 17:13:38 CST 2022

6.修改主机名为master

[root@master ~]# hostnamectl set-hostname master
[root@master ~]# hostname
master

7.配置hosts列表

[root@master ~]# vi /etc/hosts

添加主机的ip以及主机名master 192.168.133.142 master
添加IP和主机名是为了让集群中的每台服务器都知道彼此的名称和IP
添加之后,我们可以通过ping master来ping通对应的IP

8.创建个人目录、java目录、hadoop目录

[root@master ~]# mkdir /usr/zj
[root@master ~]# mkdir /usr/java
[root@master ~]# mkdir /usr/hadoop

9.使用xftp复制java安装包至/usr/zj下并且解压移动到/usr/java下

[root@master zj]# tar -zxvf jdk-8u241-linux-x64.tar.gz 
[root@master zj]# mv jdk1.8.0_241 /usr/java/

10.安装java之后,配置系统文件

[root@master java]# vi /etc/profile

在最后添加两行配置
export JAVA_HOME=/usr/java/jdk1.8.0_241 export PATH=JAVAHOME/bin:JAVA_HOME/bin:PATH
之后使配置生效并且查看java

[root@master java]# source /etc/profile
[root@master java]# java -version
java version "1.8.0_241"
Java(TM) SE Runtime Environment (build 1.8.0_241-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)

安装Hadoop

1.使用xftp复制hadoop安装包至/usr/zj下并且解压移动到/usr/hadoop下

[root@master zj]# tar -zxvf hadoop-2.10.1.tar.gz 
[root@master zj]# mv hadoop-2.10.1 /usr/hadoop/

2.修改系统配置文件,并是配置生效,再查看

[root@master zj]# vi /etc/profile

在最后添加两行
export HADOOP_HOME=/usr/hadoop/hadoop-2.10.0 export PATH=PATH:PATH:HADOOP_HOME/sbin:$HADOOP_HOME/bin

[root@master zj]# source /etc/profile
[root@master zj]#  hadoop version
Hadoop 2.10.1
Subversion https://github.com/apache/hadoop -r 1827467c9a56f133025f28557bfc2c562d78e816
Compiled by centos on 2020-09-14T13:17Z
Compiled with protoc 2.5.0
From source with checksum 3114edef868f1f3824e7d0f68be03650
This command was run using /usr/hadoop/hadoop-2.10.1/share/hadoop/common/hadoop-common-2.10.1.jar
[root@master zj]# whereis hdfs
hdfs: /usr/hadoop/hadoop-2.10.1/bin/hdfs /usr/hadoop/hadoop-2.10.1/bin/hdfs.cmd

3.将hadoop与java绑定

[root@master zj]# cd /usr/hadoop/hadoop-2.10.1/etc/hadoop/
[root@master hadoop]# vi hadoop-env.sh 

找到下面这行代码:
export JAVA_HOME=${JAVA_HOME}
将这行代码修改为
export JAVA_HOME=/usr/java/jdk1.8.0_241

配置hadoop

1.进入/usr/hadoop/hadoop-2.10.1/etc/hadoop/配置core-site.xml文件

[root@master ~]#cd /usr/hadoop/hadoop-2.10.1/etc/hadoop/
[root@master hadoop]# vi core-site.xml 

新增

<configuration>
    <!--指定文件系统的入口地址,可以为主机名或ip -->
    <!--端口号默认为8020 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
    </property>
    <!--指定hadoop的临时工作存目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/hadoop/tmp</value>
    </property>
</configuration>

2.配置yarn-env.sh文件,找到该行:
export JAVA_HOME=/home/y/libexec/jdk1.6.0/
修改为:
export JAVA_HOME=/usr/java/jdk1.8.0_241

3.配置hdfs-site.xml文件

[root@master hadoop]# vi hdfs-site.xml

新增

<configuration>
    <!--指定hdfs备份数量,小于等于从节点数目-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
        <property>
                  <name>dfs.namenode.http.address</name>
                   <value>master:50070</value>
           </property>
  <!--  自定义hdfs中namenode的存储位置-->
  <!--  <property>-->
  <!--      <name>dfs.namenode.name.dir</name>-->
  <!--      <value>file:/usr/hadoop/dfs/name</value>-->
  <!--  </property>-->
  <!--  自定义hdfs中datanode的存储位置-->
  <!--  <property>-->
  <!--      <name>dfs.datanode.data.dir</name>-->
  <!--      <value>file:/usr/hadoop/dfs/data</value>-->
  <!--</property>-->
</configuration>

4.cp命令改名,将mapred-site.xml.template改成不带后缀的mapred-site.xml,然后配置mapred-site.xml文件

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml
[root@master hadoop]# vi mapred-site.xml

新增

<configuration>
    <!--hadoop的MapReduce程序运行在YARN上-->
    <!--默认值为local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5.配置yarn-site.xml文件

[root@master hadoop]# vi yarn-site.xml

新增

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <!--nomenodeManager获取数据的方式是shuffle-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

6.修改slaves文件,重新键入三个虚拟机的hostname

slave1
slave2
slave3


相关文章
|
3月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
107 4
|
3月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
78 3
|
3月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
130 2
|
3月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
73 1
|
3月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
64 0
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
223 6
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
100 2
|
1月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
70 4
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
159 2
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
143 1

相关实验场景

更多