【分布式计算框架】Hadoop伪分布式安装

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 【分布式计算框架】Hadoop伪分布式安装

Hadoop伪分布式安装

一、实验目的

  • 安装Linux虚拟机(至少五台)
  • hadoop伪分布式安装

二、实验环境

  • centos 6.5

三、实验内容

基本任务1:安装Linux虚拟机(至少5台)

(1)BIOS设置(开启虚拟化)

(2)配置网络(/etc/sysconfig/network-scripts/ifcfg-eth0)

(3)关闭防火墙

(4)关闭selinux(/etc/selinux/config)
SELINUX=disabled        //将enforcing改为disabled

(5)删除/etc/udev/rules.d/70-persistent-net.rules //便于克隆,该文件也有网卡地址映射

rm -f /etc/udev/rules.d/70-persistent-net.rules

(6)拍摄快照,克隆新的虚拟机 ,启动新虚拟机,MAC地址就会改变

重复创建5台虚拟机

(7)重复第2步,配置4台虚拟机IP

(8)配置主机名(/etc/sysconfig/network)
hostname=20191909node0x   (要求:主机名=学号+序号)

(9)配置映射(/etc/hosts)
192.168.87.33 20191909node01 //初始机作备用
192.168.87.34 hxq20191909node02
192.168.87.35 hxq20191909node03
192.168.87.36 hxq20191909node04
192.168.87.37 hxq20191909node05
192.168.87.38 hxq20191909node06

(10)验证 在20191909node01上 ping 20191909node02 或 ping 192.168.87.34

(11)编辑 C:\WINDOWS\System32\drivers\etc\hosts //windows应用程序也可以访问主机名
192.168.87.33 20191909node01 
192.168.87.34 hxq20191909node02
192.168.87.35 hxq20191909node03
192.168.87.36 hxq20191909node04
192.168.87.37 hxq20191909node05
192.168.87.38 hxq20191909node06

(12) 最后结果

基本任务2:hadoop伪分布式安装

(本例在20191909node01上搭建伪分布式)

(1)安装java //可以通过xftp传输安装文件到/root/software/

1.1 解压

rpm -i jdk-7u67-linux-x64.rpm  //解压到/usr/java/jdk1.7.0_67

1.2 配置环境变量

vi + /etc/profile   //通过. /etc/profile  或  source /etc/profile使其生效

export JAVA_HOME=/usr/java/jdk1.7.0_67
PATH=$PATH:$JAVA_HOME/bin

//下面未配置
export HADOOP_HOME=/opt/sxt/hadoop-2.6.5
PATH=$PATH:$JAVA_HOME:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HBASE_HOME=/opt/sxt/hbase-0.98.12.1-hadoop2
PATH=$PATH:$HBASE_HOME/bin

export ZOOKEEPER_HOME=/opt/sxt/zookeeper-3.4.6
PATH=$PATH:$ZOOKEEPER_HOME/bin

export HIVE_HOME=/opt/sxt/apache-hive-1.2.1-bin
PATH=$PATH:$HIVE_HOME/bin

(2)设置ssh免密钥登录

rw-r–r-- 1 root root 1202 Nov 1 2019 authorized_keys

-rw------- 1 root root 668 Nov 1 2019 id_dsa

-rw-r–r-- 1 root root 601 Nov 1 2019 id_dsa.pub

cd /root/.ssh/ //如果没有.ssh目录,可以登录localhost自动产生

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   

cat id_dsa.pub >> authorized_keys           //将id_dsa.pub公钥文件追加到验证文件authorized_keys

// 设置.ssh目录权限 chmod 700 -R .ssh

//第二种方法:

ssh-keygen

ssh-copy-id -i id_rsa.pub node01

(3)安装Hadoop

3.1 传输安装文件到/root/software

3.2 建立解压目的目录

mkdir -p /opt/20191909

3.3 解压

tar xf hadoop-2.6.5.tar.gz -C /opt/20191909/

3.4. 配置环境变量 //sbin目录存放系统级别脚本,bin目录存放一般命令

vi + /etc/profile

export HADOOP_HOME=/opt/2019109/hadoop-2.6.5
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

(4)修改配置文件

文件所在目录:/opt/20191909/hadoop-2.6.5/etc/hadoop

  1. 修改hadoop-env.sh,mapred-env.sh,yarn-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_67

  1. 修改core-site.xml
<configuration>
   <property>
      <name>fs.defaultFS</name>
      <value>hdfs://20191909node01:9000</value>
   </property>
</configuration>

  1. 修改hdfs-site.xml
<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>

  1. slaves //从节点信息
    20191909node01

  2. 修改hdfs-site.xml,增加:
<configuration>
   <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>20191909node01:50090</value>
   </property>
</configuration>

6.修改core-site.xml,增加:

 <property>
       <name>hadoop.tmp.dir</name>
       <value>/var/20191909/hadoop/pseudo</value>
 </property>

(5) 格式化

hdfs namenode -format

查看 /var/2019109/hadoop/pseudo/dfs/name/current/fsimage_…

cat VERSION clusterID(集群ID)

四、出现问题及解决方案

问题:

  • DataNode未启动

解决方案:

  • 恢复快照,重新配置环境

五、实验结果

(1)启动集群

start-dfs.sh //可以jps查看启动哪些进程

jps //命令

(2)通过浏览器查看信息

ss -nal 查看通讯端口

在火狐等浏览器输入20191909node01:50070,前提是要在windows下的c:/windows/system32/drivers/etc/hosts文件添加IP节点映射

(3)练习上传文件
  1. 创建路径
    hdfs dfs -mkdir -p /user/root

    hdfs dfs -ls /

  2. 上传文件
    cd ~/software
    ls -lh ./ //查看文件大小

hdfs dfs -put hadoop-2.6.5.tar.gz /user/root

在浏览器查看

该文件应该生成两个块,块大小默认128MB

查看/var/20191909/pseudo/data/…实际存储位置

  1. 在~/software目录里创建一个新文件

for i in seq 100000;do echo “hello jxxy$i” >> test.txt;done

查看新文件大小

ll -h //test.txt文件大小约为1.6M

设置块大小上传文件

hdfs dfs -D dfs.blocksize=1048576 -put test.txt

  1. 每次需要关闭集群
    stop-dfs.sh

六、实验思考题

安装linux时,如何配置网络?


在安装Linux时配置网络,通常需要编辑网络配置文件,比如 /etc/network/interfaces 或者 /etc/sysconfig/network-scripts/ifcfg-eth0,设置IP地址、子网掩码、网关等信息,然后重启网络服务使配置生效。


为什么要删除/etc/udev/rules.d/70-persistent-net.rules?


删除 /etc/udev/rules.d/70-persistent-net.rules 文件是因为这个文件会存储设备的 MAC 地址与接口名的映射关系,如果更换了网卡或者调整了网络配置,可能会导致网络接口名混乱,删除该文件可以让系统在下次启动时重新生成正确的映射关系。


为什么要设置ssh免密钥登录?如何设置?


设置SSH免密钥登录可以提高安全性并方便远程登录管理。具体设置方法包括:生成密钥对、将公钥添加到目标服务器的 ~/.ssh/authorized_keys 文件中,确保权限正确;然后就可以直接SSH登录而无需输入密码。


搭建hadoop时,为什么要配置hadoop.tmp.dir?


配置 hadoop.tmp.dir 参数是为了指定Hadoop在运行过程中存储临时数据的目录,一般情况下应该设置在一个独立的磁盘或者目录上,以避免对主要存储产生影响。


安装完全分布式,为什么要同步服务器时间?


同步服务器时间在完全分布式环境下非常重要,因为各个节点之间需要保持时间同步以确保协调运行。可以使用NTP服务来实现时间同步,配置主服务器为时间服务器,其他服务器与其同步即可。


启动过程中如果发现某个datanode出现问题,如何处理?


如果在启动过程中某个DataNode出现问题,可以先查看日志文件以确定具体问题,尝试重启DataNode服务或者进行故障排查处理。如果问题无法解决,可能需要考虑替换硬件或修复软件错误。


zookeeper的作用是什么?


Zookeeper的作用是提供分布式应用程序的协调服务,包括配置管理、命名服务、集群管理等功能。在Hadoop集群中,Zookeeper通常用于协调和管理Hadoop集群的各个组件,确保它们能够正确协同工作。


hadoop.tmp.dir` 参数是为了指定Hadoop在运行过程中存储临时数据的目录,一般情况下应该设置在一个独立的磁盘或者目录上,以避免对主要存储产生影响。


安装完全分布式,为什么要同步服务器时间?


同步服务器时间在完全分布式环境下非常重要,因为各个节点之间需要保持时间同步以确保协调运行。可以使用NTP服务来实现时间同步,配置主服务器为时间服务器,其他服务器与其同步即可。


启动过程中如果发现某个datanode出现问题,如何处理?


如果在启动过程中某个DataNode出现问题,可以先查看日志文件以确定具体问题,尝试重启DataNode服务或者进行故障排查处理。如果问题无法解决,可能需要考虑替换硬件或修复软件错误。


zookeeper的作用是什么?


Zookeeper的作用是提供分布式应用程序的协调服务,包括配置管理、命名服务、集群管理等功能。在Hadoop集群中,Zookeeper通常用于协调和管理Hadoop集群的各个组件,确保它们能够正确协同工作。

相关文章
|
20小时前
|
XML 分布式计算 Hadoop
分布式系统详解--框架(Hadoop-单机版搭建)
分布式系统详解--框架(Hadoop-单机版搭建)
10 0
分布式系统详解--框架(Hadoop-单机版搭建)
|
20小时前
|
存储 分布式计算 监控
分布式系统详解--框架(Hadoop-HDFS的HA搭建及测试)
分布式系统详解--框架(Hadoop-HDFS的HA搭建及测试)
6 0
|
20小时前
|
Java 网络安全
分布式系统详解--框架(Zookeeper-简介和集群搭建)
分布式系统详解--框架(Zookeeper-简介和集群搭建)
7 0
|
20小时前
|
分布式计算 资源调度 网络协议
分布式系统详解--框架(Hadoop--RPC协议)
分布式系统详解--框架(Hadoop--RPC协议)
6 0
|
1月前
|
NoSQL Java 关系型数据库
【Redis系列笔记】分布式锁
分布式锁:满足分布式系统或集群模式下多进程可见并且互斥的锁。 分布式锁的核心思想就是让大家都使用同一把锁,只要大家使用的是同一把锁,那么我们就能锁住线程,不让线程进行,让程序串行执行,这就是分布式锁的核心思路
428 2
|
8天前
|
NoSQL 算法 Java
探讨redis分布式锁
探讨redis分布式锁
13 1
|
14天前
|
缓存 NoSQL 安全
玩转Redis!非常强大的Redisson分布式集合,少写60%代码
Redisson是Java的Redis客户端,提供实时数据平台服务,简化了分布式环境下的数据管理。它包含RList、RSet、RMap等分布式集合,支持ConcurrentMap和Set接口,确保线程安全和数据一致性。例如,RMap实现了本地缓存和监听器功能,允许数据监听和本地加速读取。此外,还提供了RSet的排序和去重功能,以及RQueue和RBlockingQueue等队列实现,支持阻塞操作。通过Redisson,开发者能轻松处理分布式系统的数据同步和操作。
|
1月前
|
监控 NoSQL 算法
探秘Redis分布式锁:实战与注意事项
本文介绍了Redis分区容错中的分布式锁概念,包括利用Watch实现乐观锁和使用setnx防止库存超卖。乐观锁通过Watch命令监控键值变化,在事务中执行修改,若键值被改变则事务失败。Java代码示例展示了具体实现。setnx命令用于库存操作,确保无超卖,通过设置锁并检查库存来更新。文章还讨论了分布式锁存在的问题,如客户端阻塞、时钟漂移和单点故障,并提出了RedLock算法来提高可靠性。Redisson作为生产环境的分布式锁实现,提供了可重入锁、读写锁等高级功能。最后,文章对比了Redis、Zookeeper和etcd的分布式锁特性。
234 16
探秘Redis分布式锁:实战与注意事项
|
18天前
|
缓存 NoSQL 关系型数据库
【Redis】 浅谈分布式架构
【Redis】 浅谈分布式架构
|
1天前
|
负载均衡 NoSQL 关系型数据库
Redis分布式锁学习总结
Redis分布式锁学习总结
5 0

相关实验场景

更多