Hadoop-HDFS读写流程

简介: Hadoop-HDFS读写流程

HDFS数据写入流程

image.png
1、HDFS客户端向NameNode请求上传文件。
2、NameNode判断文件是否存在,不存在返回客户端,可以上传。
3、HDFS客户端切分文件,上传第一个Block文件,请求NameNode
4、NameNode返回,可以上传存储的DataNode节点。
5、向DataNode请求建立传输通道。
6、HDFS客户端得到DataNode应答成功
7、HDFS客户端开始传输数据Packet,到DataNode;DataNode之间副本自行同步。
8、HDFS客户端向NameNode汇报,传输数据完成。
9、关闭文件流

HDFS各节点距离

两个节点到达最近的共同祖先的距离总和。

副本节点选择

1、第一个副本在Client所处节点上。如果客户端在集群外,随机选择一个。
2、第二个副本和第一个副本位于相同机架,不同的随机节点上。(减少网络IO)
3、第三个副本位于不同机架的随机节点上。(安全性)

HDFS数据读取流程

image.png
1、创建HDFS客户端,向NameNode请求下载文件。
2、NameNode返回目标文件的元数据。
3、HDFS客户端请求数据的各个数据块。
4、HDFS客户端将各个数据块合并
5、HDFS客户端关闭文件流。

相关文章
|
3月前
|
XML 分布式计算 安全
hadoop升级流程
hadoop升级流程
|
20天前
|
存储 分布式计算 Hadoop
【Hadoop】HDFS 读写流程
【4月更文挑战第9天】【Hadoop】HDFS 读写流程
|
3月前
|
存储 分布式计算 Java
HDFS的数据读取流程是怎样的?请描述数据读取的过程。
HDFS的数据读取流程是怎样的?请描述数据读取的过程。
28 0
|
3月前
|
Java API
HDFS的数据写入流程是怎样的?请描述数据写入的过程。
HDFS的数据写入流程是怎样的?请描述数据写入的过程。
20 0
|
4月前
|
存储 分布式计算 大数据
【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解(图文解释)
【大数据技术Hadoop+Spark】Spark RDD设计、运行原理、运行流程、容错机制讲解(图文解释)
71 0
|
5月前
|
算法 数据中心
HDFS数据的读写流程
HDFS数据的读写流程
42 0
|
7月前
|
缓存 分布式计算 负载均衡
HDFS 的写数据流程分析
HDFS的写数据流程是一道比较常见的面试题,同时梳理了写流程也可以帮助我们更加深入一点的了解 HDFS 的主要原理和各个组件的交互过程
|
8月前
|
机器学习/深度学习 缓存 分布式计算
Hadoop基础学习---4、HDFS写、读数据流程、NameNode和SecondaryNameNode、DataNode
Hadoop基础学习---4、HDFS写、读数据流程、NameNode和SecondaryNameNode、DataNode
|
18天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
46 2
|
18天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

相关实验场景

更多