Hadoop快速入门——第二章、分布式集群(第二节、Hadoop分布式模式搭建)(1)

简介: Hadoop快速入门——第二章、分布式集群(第二节、Hadoop分布式模式搭建)

前置内容:

1、java环境


2、hadoop环境


配置【vi /etc/profile.d/hadoop-eco.sh】


JAVA_HOME=/opt/jdk
PATH=$JAVA_HOME/bin:$PATH
HADOOP_HOME=/opt/hadoop
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

执行脚本【source /etc/profile.d/hadoop-eco.sh】


Hadoop分布式模式搭建流程:

1、修改配置文件

hadoop-env.sh

mapred-env.sh

yarn-env.sh

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

slaves

1~3,添加或替换

export JAVA_HOME=/opt/jdk


4、配置【core-site.xml】


vi /opt/hadoop/etc/hadoop/core-site.xml

将【localhost】改为【master】


<property>
   <name>fs.defaultFS</name>
   <value>hdfs://master:9000</value>
  </property>
 <property>
   <name>hadoop.tmp.dir</name>
   <value>/opt/soft/hadoop/data/tmp</value>
</property>

2、配置【hdfs-site.xml】


vi /opt/hadoop/etc/hadoop/hdfs-site.xml
  <property>
  <name>dfs.replication</name>
  <value>3</value>
  </property>

3、配置【mapred-site.xml】


vi /opt/hadoop/etc/hadoop/mapred-site.xml
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

4、配置【yarn-site.xml】


<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

5、配置【slaves】文件


master
a1
a2

2、远程拷贝jdk、hadoop、hadoop-eco.sh

1、拷贝jdk


scp -r /opt/jdk a1:/opt/jdk


image.png

scp -r /opt/jdk a2:/opt/jdk

复制的比较慢,别急。


2、拷贝hadoop


scp -r /opt/hadoop a1:/opt/hadoop


image.png

scp -r /opt/hadoop a2:/opt/hadoop

3、拷贝hadoop-eco.sh


scp /etc/profile.d/hadoop-eco.sh a1:/etc/profile.d/hadoop-eco.sh
scp /etc/profile.d/hadoop-eco.sh a2:/etc/profile.d/hadoop-eco.sh

image.png

相关文章
|
16天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4天前
|
存储 分布式计算 Hadoop
基于Hadoop分布式数据库HBase1.0部署及使用
基于Hadoop分布式数据库HBase1.0部署及使用
|
9天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
12天前
|
存储 分布式计算 Hadoop
Hadoop的运行模式
【4月更文挑战第12天】Hadoop支持三种运行模式:本地模式适用于初学者和小型项目;伪分布式集群模式用于测试,数据存储在HDFS;完全分布式集群模式,适用于企业级大规模数据处理,具有高吞吐量和容错性。选择模式取决于实际需求和环境配置。Hadoop的分布式计算特性使其在扩展性、容错性和可恢复性方面表现出色,是大数据处理的关键工具。
13 1
|
14天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
41 9
|
15天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
23 4
|
17天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
19天前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
17 0
|
19天前
|
存储 分布式数据库
GaussDB分布式与单机模式的比较
【4月更文挑战第7天】GaussDB分布式与单机模式的比较
1615 5
|
29天前
|
存储 监控 安全
金石推荐 | 【分布式技术专题】「单点登录技术架构」一文带领你好好认识以下Saml协议的运作机制和流程模式
金石推荐 | 【分布式技术专题】「单点登录技术架构」一文带领你好好认识以下Saml协议的运作机制和流程模式
67 1