备案控制台

开发者社区云计算文章正文

Hadoop-HDFS读写流程

2021-12-23 208

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hadoop-HDFS读写流程

HDFS数据写入流程

1、HDFS客户端向NameNode请求上传文件。
2、NameNode判断文件是否存在，不存在返回客户端，可以上传。
3、HDFS客户端切分文件，上传第一个Block文件，请求NameNode
4、NameNode返回，可以上传存储的DataNode节点。
5、向DataNode请求建立传输通道。
6、HDFS客户端得到DataNode应答成功
7、HDFS客户端开始传输数据Packet，到DataNode；DataNode之间副本自行同步。
8、HDFS客户端向NameNode汇报，传输数据完成。
9、关闭文件流

HDFS各节点距离

两个节点到达最近的共同祖先的距离总和。

副本节点选择

1、第一个副本在Client所处节点上。如果客户端在集群外，随机选择一个。
2、第二个副本和第一个副本位于相同机架，不同的随机节点上。（减少网络IO）
3、第三个副本位于不同机架的随机节点上。（安全性）

HDFS数据读取流程

1、创建HDFS客户端，向NameNode请求下载文件。
2、NameNode返回目标文件的元数据。
3、HDFS客户端请求数据的各个数据块。
4、HDFS客户端将各个数据块合并
5、HDFS客户端关闭文件流。

文章标签：

存储

关键词：

hadoop流程

hadoop读写流程

文件存储HDFS版读写流程

文件存储HDFS版读写

文件存储HDFS版流程

在渝老码农

目录

相关文章

1288912195458132

|

4月前

|

存储安全

HDFS读写流程详解

HDFS读写流程详解

1288912195458132

183 2 2

武子康

|

2月前

|

分布式计算 Hadoop 网络安全

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

38 1 1

武子康

|

2月前

|

存储机器学习/深度学习缓存

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

51 1 1

土木林森

|

4月前

|

存储分布式计算 Hadoop

【揭秘Hadoop背后的秘密！】HDFS读写流程大曝光：从理论到实践，带你深入了解Hadoop分布式文件系统！

【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件，专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构，前者负责元数据管理，后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取，有助于理解HDFS的工作原理及其在大数据处理中的应用价值。

土木林森

114 1 1

武子康

|

2月前

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

177 6 6

武子康

|

2月前

|

SQL 分布式计算监控

Hadoop-20 Flume 采集数据双写至本地+HDFS中监控目录变化 3个Agent MemoryChannel Source对比

Hadoop-20 Flume 采集数据双写至本地+HDFS中监控目录变化 3个Agent MemoryChannel Source对比

武子康

66 3 3

武子康

|

2月前

|

SQL 分布式计算 Hadoop

Hadoop-14-Hive HQL学习与测试表连接查询 HDFS数据导入导出等操作逻辑运算函数查询全表查询 WHERE GROUP BY ORDER BY（一）

Hadoop-14-Hive HQL学习与测试表连接查询 HDFS数据导入导出等操作逻辑运算函数查询全表查询 WHERE GROUP BY ORDER BY（一）

武子康

49 4 4

武子康

|

2月前

|

存储分布式计算资源调度

大数据-04-Hadoop集群集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI（一）

大数据-04-Hadoop集群集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI（一）

武子康

78 5 5

武子康

|

2月前

|

资源调度数据可视化大数据

大数据-04-Hadoop集群集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI（二）

大数据-04-Hadoop集群集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI（二）

武子康

36 4 5

武子康

|

2月前

|

XML 分布式计算资源调度

大数据-02-Hadoop集群 XML配置超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece（一）

大数据-02-Hadoop集群 XML配置超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece（一）

武子康

169 5 5

热门文章

最新文章

sqoop2:从mysql导出数据到hdfs

HDFS－Architecture剖析

HDFS的linux下开发环境准备

给 admin 新建的 hdfs 文件的权限

Hadoop HDFS概念学习系列之两个和HDFS读写操作最为密切的Hadoop包（二十）

HDFS的文件操作

使用oracle的大数据工具ODCH访问HDFS数据文件

Hadoop编程调用HDFS（PYTHON）

HDFS块文件和存放目录的关系

hdfs创建级联文件夹

Hadoop生态系统集成问题

Hadoop权限问题

Hadoop安全性问题

安装hadoop学习笔记

Hadoop的HDFS问题

Hadoop防火墙问题

Hadoop网络问题

Hadoop常见问题

java与大数据：Hadoop与MapReduce

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop 分布式文件系统 HDFS

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云无影云电脑免费试用，最长可试用3个月