Hadoop集群搭建

简介: 3. 两台虚拟机使用相同的网卡,需要重新安装网卡通过 ifconfig查看,虚拟机使用相同的网卡eth0,所以需要卸载,在vmware设置中移除[网络适配器],然后再点添加一个新的[网络适配器],再通过ifconfig查看 ,已经变成eth1了,再通过curl www.baidu.com 命令就能上网了

配置虚拟机CentOS


  1. 修改IP
cd /etc/sysconfig/network-scripts
sudo vim ifcfg-eth0
  1. 重启服务
sudo /etc/init.d/network restart
  1. 两台虚拟机使用相同的网卡,需要重新安装网卡

通过 ifconfig查看,虚拟机使用相同的网卡eth0,所以需要卸载,在vmware设置中移除[网络适配器],然后再点添加一个新的[网络适配器],再通过ifconfig查看 ,已经变成eth1了,再通过curl www.baidu.com 命令就能上网了

Hadoop


  1. 上传hadoop-1.2.1-bin.tar.gz 到服务器/usr/local/上,并解压tar -xvzf hadoop-1.2.1-bin.tar.gz
  2. 创建tmp

在 /usr/local/hadoop-1.2.1 目录下创建tmp目录,用于保存使用过程中产生的临时文件

  1. conf 目录下修改masters、slaves文件

在masters文件中添加一行 master

root@ubuntu238:/usr/local/hadoop-1.2.1/conf# cat masters
master

在slaves文件中添加两行 slave1 slave2

root@ubuntu238:/usr/local/hadoop-1.2.1/conf# cat slaves
slave1
slave2
  1. 修改core-site.xml文件
<configuration>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop-1.2.1/tmp</value>
  </property>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://master:9000</value>
  </property>
</configuration>
  1. 修改mapred-site.xml
<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>http://master:9001</value>
  </property>
</configuration>
  1. 修改hdfs-site.xml文件,配置数据在hdfs中存储的副本数,默认是3
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
</configuration>
  1. 修改hadoop-env.sh文件,添加环境变量
export JAVA_HOME=/usr/local/java
  1. 配置Hosts
192.168.111.38 master
192.168.111.39 slave1
192.168.111.40 slave2
  1. 修改hostname
Ubuntu
vim /etc/hostname
CentOS
vim /etc/sysconfig/network
hostname xxx  #临时设定hostname为xxx
  1. 将hadoop配置后的文件复制到两台slave节点上
scp  -rp  hadoop-1.2.1  192.168.111.xx:/usr/local/
hosts文件和hostname分别配置
  1. 查看防火墙状态及关闭
service iptables status或iptables -L
/etc/init.d/iptables stop
  1. 设置selinux,网络传输过程中,防火墙和selinux都可能会导致意想不到的问题。 通过setenforce 0设置,设置完之后执行getenforce,结果应该为permissive。
  2. ssh互信
对每台机器执行
ssh-keygen
cd ~/.ssh/ #进入这个目录下可以看到公钥和私钥文件。
cat id_rsa.pub >authorized_keys
将slave1和slave2中的公钥拷贝到master节点的authorized_keys中,然后将master节点的authorized_keys拷贝到slave1和slave2节点的~/.ssh/目录下
  1. 格式化namenode:在bin目录下执行./hadoop namenode -format
  2. 启动集群:./start-all.sh
  3. jps命令验证进程
  4. 验证hdfs是否可以用
./hadoopfs -ls /   #查看当前hdfs下有啥
./hadoopfs -put /etc/passwd  /  #往集群中上传passwd文件
./hadoop fs-cat /passwd           #读hadoop中的passwd文件
  1. 配置环境变量
vim  ~/.bashrc
export JAVA_HOME=/usr/local/java
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib
export HADOOP_HOME=/usr/local/hadoop-1.2.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin


相关文章
|
3天前
|
存储 分布式计算 资源调度
Hadoop【环境搭建 04】【hadoop-2.6.0-cdh5.15.2.tar.gz 基于ZooKeeper搭建高可用集群】(部分图片来源于网络)
【4月更文挑战第1天】Hadoop【环境搭建 04】【hadoop-2.6.0-cdh5.15.2.tar.gz 基于ZooKeeper搭建高可用集群】(部分图片来源于网络)
56 3
|
2天前
|
SQL 弹性计算 分布式计算
实时计算 Flink版产品使用合集之如果产品是基于ak的,可以提交sql任务到ecs自建hadoop集群吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
14 0
|
3天前
|
分布式计算 监控 Hadoop
Ganglia监控Hadoop与HBase集群
Ganglia监控Hadoop与HBase集群
|
3天前
|
存储 分布式计算 Hadoop
Hadoop集群搭建
Hadoop集群搭建
|
3天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
3天前
|
存储 分布式计算 Hadoop
Hadoop集群规模扩展
【4月更文挑战第14天】Hadoop集群扩展可通过添加更多节点、垂直扩展(增强单节点资源)和水平扩展(增加节点数量)来实现。关键点包括规划扩展策略、确保集群稳定性和优化配置。注意在扩展过程中要保证数据完整性,并根据需求调整以提升集群性能和效率。
23 1
|
3天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
63 9
|
3天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
37 4
|
3天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
3天前
|
分布式计算 资源调度 Hadoop
Hadoop【环境搭建 03】【hadoop-3.1.3 集群版】(附:集群启动&停止Shell脚本)
【4月更文挑战第1天】Hadoop【环境搭建 03】【hadoop-3.1.3 集群版】(附:集群启动&停止Shell脚本)
38 2

相关实验场景

更多