hadoop节点HDFS(Hadoop Distributed File System)数据分片

简介: 【5月更文挑战第17天】

image.png
Hadoop Distributed File System (HDFS) 在 Hadoop 中是数据的存储基石,它采用了一种分布式存储的方式来处理大规模数据集。在 HDFS 中,数据分片(Data Partitioning)是数据处理的关键步骤之一,它有助于在集群中并行处理数据。以下是关于 HDFS 数据分片的详细解释:

  1. 数据块(Block)

    • HDFS 将文件分割成多个固定大小的数据块(Block)进行存储。
    • 默认情况下,一个 Block 的大小为 128MB(但在旧版本的 Hadoop 中,这个值可能是 64MB)。
    • 如果文件大小小于 Block 大小,则该文件不会占据整个 Block 的空间。
  2. 数据分片(Data Splitting)

    • 在 Hadoop 的 MapReduce 作业中,数据分片(Splitting)是数据处理的初步阶段。
    • 数据分片是将输入数据逻辑上划分为多个片段(Splits),以便 Map 阶段可以并行处理这些片段。
    • 分片大小(Split Size)通常与 Block 大小相关,但不一定完全相等。
    • 分片的大小由多个因素决定,包括文件大小、配置的 Map 任务数量、HDFS Block 大小以及 mapred.min.split.sizemapred.max.split.size 等参数。
  3. 数据分片过程

    • 当 Hadoop 作业被提交时,JobTracker(或 ResourceManager 在 YARN 架构中)会调用 FileInputFormat 的 getSplits() 方法来确定输入数据的分片。
    • getSplits() 方法会基于文件的 Block 信息和配置参数来计算每个分片的起始和结束位置。
    • 对于每个分片,Hadoop 会启动一个 Map 任务来处理该分片的数据。
  4. 分片与 Block 的关系

    • 分片是在逻辑上对输入数据进行的划分,而 Block 是 HDFS 中物理存储数据的单位。
    • 一个分片可能包含多个 Block,也可能一个 Block 被多个分片共享。
    • 通常情况下,为了提高数据本地性和处理效率,Hadoop 会尽量将分片与 Block 对齐。
  5. 数据分片的重要性

    • 合理的数据分片能够充分利用集群的计算资源,提高数据处理的速度和效率。
    • 通过调整分片大小和数量,可以影响 Map 任务的并行度和执行效率。
    • 适当的分片策略还能减少跨节点数据传输的开销,降低网络负载。

总结来说,HDFS 的数据分片是 Hadoop 处理大规模数据集的关键步骤之一。通过将数据逻辑上划分为多个分片,Hadoop 能够在集群中并行处理这些数据,从而提高数据处理的速度和效率。

目录
相关文章
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
204 6
|
30天前
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
3月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
93 4
|
3月前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
67 3
|
3月前
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
81 1
|
3月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
58 1
|
3月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
63 1
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
121 0
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
91 2
|
15天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
51 4

热门文章

最新文章

相关实验场景

更多