hadoop节点HDFS(Hadoop Distributed File System)数据分片

简介: 【5月更文挑战第17天】

image.png
Hadoop Distributed File System (HDFS) 在 Hadoop 中是数据的存储基石,它采用了一种分布式存储的方式来处理大规模数据集。在 HDFS 中,数据分片(Data Partitioning)是数据处理的关键步骤之一,它有助于在集群中并行处理数据。以下是关于 HDFS 数据分片的详细解释:

  1. 数据块(Block)

    • HDFS 将文件分割成多个固定大小的数据块(Block)进行存储。
    • 默认情况下,一个 Block 的大小为 128MB(但在旧版本的 Hadoop 中,这个值可能是 64MB)。
    • 如果文件大小小于 Block 大小,则该文件不会占据整个 Block 的空间。
  2. 数据分片(Data Splitting)

    • 在 Hadoop 的 MapReduce 作业中,数据分片(Splitting)是数据处理的初步阶段。
    • 数据分片是将输入数据逻辑上划分为多个片段(Splits),以便 Map 阶段可以并行处理这些片段。
    • 分片大小(Split Size)通常与 Block 大小相关,但不一定完全相等。
    • 分片的大小由多个因素决定,包括文件大小、配置的 Map 任务数量、HDFS Block 大小以及 mapred.min.split.sizemapred.max.split.size 等参数。
  3. 数据分片过程

    • 当 Hadoop 作业被提交时,JobTracker(或 ResourceManager 在 YARN 架构中)会调用 FileInputFormat 的 getSplits() 方法来确定输入数据的分片。
    • getSplits() 方法会基于文件的 Block 信息和配置参数来计算每个分片的起始和结束位置。
    • 对于每个分片,Hadoop 会启动一个 Map 任务来处理该分片的数据。
  4. 分片与 Block 的关系

    • 分片是在逻辑上对输入数据进行的划分,而 Block 是 HDFS 中物理存储数据的单位。
    • 一个分片可能包含多个 Block,也可能一个 Block 被多个分片共享。
    • 通常情况下,为了提高数据本地性和处理效率,Hadoop 会尽量将分片与 Block 对齐。
  5. 数据分片的重要性

    • 合理的数据分片能够充分利用集群的计算资源,提高数据处理的速度和效率。
    • 通过调整分片大小和数量,可以影响 Map 任务的并行度和执行效率。
    • 适当的分片策略还能减少跨节点数据传输的开销,降低网络负载。

总结来说,HDFS 的数据分片是 Hadoop 处理大规模数据集的关键步骤之一。通过将数据逻辑上划分为多个分片,Hadoop 能够在集群中并行处理这些数据,从而提高数据处理的速度和效率。

目录
相关文章
|
7月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
708 70
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
455 6
|
8月前
|
分布式计算 Hadoop 大数据
从Excel到Hadoop:数据规模的进化之路
从Excel到Hadoop:数据规模的进化之路
157 10
|
9月前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
297 7
|
10月前
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
210 1
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
293 0
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
180 3
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
263 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
141 4

相关实验场景

更多