【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)(五)

简介: Hadoop 核心 - HDFS 分布式文件系统详解
  • DataNode的目录结构


和namenode不同的是,datanode的存储目录是初始阶段自动创建的,不需要额外格式化。


在/opt/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current这个目录下查看版本号


cat VERSION 
    #Thu Mar 14 07:58:46 CST 2019
    storageID=DS-47bcc6d5-c9b7-4c88-9cc8-6154b8a2bf39
    clusterID=CID-dac2e9fa-65d2-4963-a7b5-bb4d0280d3f4
    cTime=0
    datanodeUuid=c44514a0-9ed6-4642-b3a8-5af79f03d7a4
    storageType=DATA_NODE
    layoutVersion=-56


具体解释:


storageID:存储id号。


clusterID集群id,全局唯一。


cTime属性标记了datanode存储系统的创建时间,对于刚刚格式化的存储系统,这个属性为0;但是在文件系统升级之后,该值会更新到新的时间戳。


datanodeUuid:datanode的唯一识别码。


storageType:存储类型。


layoutVersion是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。


  • datanode多目录配置


datanode也可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本。具体配置如下:


- 只需要在value中使用逗号分隔出多个存储目录即可


cd /opt/hadoop-2.6.0-cdh5.14.0/etc/hadoop
  <!--  定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割  -->
          <property>
                  <name>dfs.datanode.data.dir</name>
                  <value>file:///opt/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas</value>
          </property>


10.1 服役新数据节点


需求说明:


随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。


10.1.1 环境准备


  1. 复制一台新的虚拟机出来


将我们纯净的虚拟机复制一台出来,作为我们新的节点


  1. 修改mac地址以及IP地址


修改mac地址命令
  vim /etc/udev/rules.d/70-persistent-net.rules
修改ip地址命令
  vim /etc/sysconfig/network-scripts/ifcfg-eth0


  1. 关闭防火墙,关闭selinux


关闭防火墙
  service iptables stop
关闭selinux
  vim /etc/selinux/config


  1. 更改主机名


更改主机名命令,将node04主机名更改为node04.hadoop.com
vim /etc/sysconfig/network


  1. 四台机器更改主机名与IP地址映射


四台机器都要添加hosts文件
vim /etc/hosts
192.168.52.100 node01.hadoop.com  node01
192.168.52.110 node02.hadoop.com  node02
192.168.52.120 node03.hadoop.com  node03
192.168.52.130 node04.hadoop.com  node04


  1. node04服务器关机重启


node04执行以下命令关机重启
  reboot -h now


  1. node04安装jdk


node04统一两个路径
  mkdir -p /export/softwares/
  mkdir -p /export/servers/


然后解压jdk安装包,配置环境变量


  1. 解压hadoop安装包


在node04服务器上面解压hadoop安装包到/export/servers , node01执行以下命令将hadoop安装包拷贝到node04服务器
  cd /export/softwares/
  scp hadoop-2.6.0-cdh5.14.0-自己编译后的版本.tar.gz node04:$PWD
node04解压安装包
  tar -zxf hadoop-2.6.0-cdh5.14.0-自己编译后的版本.tar.gz -C /export/servers/


  1. 将node01关于hadoop的配置文件全部拷贝到node04


node01执行以下命令,将hadoop的配置文件全部拷贝到node04服务器上面
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/
  scp ./* node04:$PWD


10.1.2 服役新节点具体步骤


  1. 创建dfs.hosts文件


在node01也就是namenode所在的机器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts文件
[root@node01 hadoop]# cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
[root@node01 hadoop]# touch dfs.hosts
[root@node01 hadoop]# vim dfs.hosts
添加如下主机名称(包含新服役的节点)
node01
node02
node03
node04


  1. node01编辑hdfs-site.xml添加以下配置


在namenode的hdfs-site.xml配置文件中增加dfs.hosts属性


node01执行以下命令 :
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hdfs-site.xml
# 添加一下内容
  <property>
         <name>dfs.hosts</name>
         <value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts</value>
    </property>
    <!--动态上下线配置: 如果配置文件中有, 就不需要配置-->
    <property>
    <name>dfs.hosts</name>
    <value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/accept_host</value>
  </property>
  <property>
    <name>dfs.hosts.exclude</name>
    <value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/deny_host</value>
  </property>


  1. 刷新namenode


  • node01执行以下命令刷新namenode


[root@node01 hadoop]# hdfs dfsadmin -refreshNodes
Refresh nodes successful


  1. 更新resourceManager节点


  • node01执行以下命令刷新resourceManager


[root@node01 hadoop]# yarn rmadmin -refreshNodes
19/03/16 11:19:47 INFO client.RMProxy: Connecting to ResourceManager at node01/192.168.52.100:8033


  1. namenode的slaves文件增加新服务节点主机名称


node01编辑slaves文件,并添加新增节点的主机,更改完后,slaves文件不需要分发到其他机器上面去


node01执行以下命令编辑slaves文件 :
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
  vim slaves
添加一下内容:   
node01
node02
node03
node04


  1. 单独启动新增节点


node04服务器执行以下命令,启动datanode和nodemanager : 
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/
  sbin/hadoop-daemon.sh start datanode
  sbin/yarn-daemon.sh start nodemanager


  1. 使用负载均衡命令,让数据均匀负载所有机器


node01执行以下命令 : 
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/
  sbin/start-balancer.sh


10.2 退役旧数据


  1. 创建dfs.hosts.exclude配置文件


在namenod所在服务器的/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop目录下创建dfs.hosts.exclude文件,并添加需要退役的主机名称


node01执行以下命令 : 
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
  touch dfs.hosts.exclude
  vim dfs.hosts.exclude
添加以下内容:
  node04.hadoop.com
特别注意:该文件当中一定要写真正的主机名或者ip地址都行,不能写node04


  1. 编辑namenode所在机器的hdfs-site.xml


编辑namenode所在的机器的hdfs-site.xml配置文件,添加以下配置


cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hdfs-site.xml
#添加一下内容:
  <property>
         <name>dfs.hosts.exclude</name>
         <value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/dfs.hosts.exclude</value>
   </property>


  1. 刷新namenode,刷新resourceManager


在namenode所在的机器执行以下命令,刷新namenode,刷新resourceManager : 
hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes


  1. 节点退役完成,停止该节点进程


等待退役节点状态为decommissioned(所有块已经复制完成),停止该节点及节点资源管理器。注意:如果副本数是3,服役的节点小于等于3,是不能退役成功的,需要修改副本数后才能退役。


node04执行以下命令,停止该节点进程 : 
  cd /export/servers/hadoop-2.6.0-cdh5.14.0
  sbin/hadoop-daemon.sh stop datanode
  sbin/yarn-daemon.sh stop nodemanager


  1. 从include文件中删除退役节点


namenode所在节点也就是node01执行以下命令删除退役节点 :
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
  vim dfs.hosts
删除后的内容: 删除了node04
node01
node02
node03


  1. node01执行一下命令刷新namenode,刷新resourceManager


hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes


  1. 从namenode的slave文件中删除退役节点


namenode所在机器也就是node01执行以下命令从slaves文件中删除退役节点 : 
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
  vim slaves
删除后的内容: 删除了 node04 
node01
node02
node03


  1. 如果数据负载不均衡,执行以下命令进行均衡负载


node01执行以下命令进行均衡负载
  cd /export/servers/hadoop-2.6.0-cdh5.14.0/
  sbin/start-balancer.sh


11 block块手动拼接成为完整数据


所有的数据都是以一个个的block块存储的,只要我们能够将文件的所有block块全部找出来,拼接到一起,又会成为一个完整的文件,接下来我们就来通过命令将文件进行拼接:


  1. 上传一个大于128M的文件到hdfs上面去


我们选择一个大于128M的文件上传到hdfs上面去,只有一个大于128M的文件才会有多个block块。


这里我们选择将我们的jdk安装包上传到hdfs上面去。


node01执行以下命令上传jdk安装包


cd /export/softwares/
hdfs dfs -put jdk-8u141-linux-x64.tar.gz  /


  1. web浏览器界面查看jdk的两个block块id


这里我们看到两个block块id分别为


1073742699和1073742700


那么我们就可以通过blockid将我们两个block块进行手动拼接了。


  1. 根据我们的配置文件找到block块所在的路径


根据我们hdfs-site.xml的配置,找到datanode所在的路径
<!--  定义dataNode数据存储的节点位置,实际工作中,一般先确定磁盘的挂载目录,然后多个目录用,进行分割  -->
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas</value>
        </property>
进入到以下路径 : 此基础路径为 上述配置中value的路径
cd /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current/BP-557466926-192.168.52.100-1549868683602/current/finalized/subdir0/subdir3


执行block块的拼接


将不同的各个block块按照顺序进行拼接起来,成为一个完整的文件
cat blk_1073742699 >> jdk8u141.tar.gz
cat blk_1073742700 >> jdk8u141.tar.gz
移动我们的jdk到/export路径,然后进行解压
mv  jdk8u141.tar.gz /export/
cd /export/
tar -zxf jdk8u141.tar.gz
正常解压,没有问题,说明我们的程序按照block块存储没有问题
相关文章
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
214 6
|
5天前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
30 7
|
3月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
72 2
|
3月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
71 1
|
3月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
64 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
150 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
64 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
84 0
|
3月前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
78 3
|
3月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
66 4