Hadoop分布式文件系统(HDFS)

简介: 【5月更文挑战第10天】

image.png
Hadoop分布式文件系统(HDFS)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。HDFS是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,为超大数据集的应用处理带来了很多便利。

HDFS的特点包括:

  1. 高可靠性:通过数据冗余备份和自动故障恢复机制,保证数据的高可靠性。
  2. 可扩展性:支持水平扩展,可以根据需要增加或减少存储节点,以适应不断增长的数据量。
  3. 高吞吐量:通过数据切割和并行处理技术,实现高速的数据读写操作。
  4. 数据局部性:将数据块存储在靠近数据所在节点的位置,减少数据传输的延迟和网络负载。

HDFS的架构主要包括NameNode和DataNode两种角色。NameNode是HDFS集群主节点,负责管理文件系统的命名空间(即目录结构)和客户端对文件的访问。DataNode是HDFS集群从节点,负责存储实际的文件数据块,并执行数据块的读写操作。

在HDFS中,文件在物理上是分块存储的,块的大小可以通过配置参数来规定。默认大小在Hadoop 2.x版本中是128MB。这种分块存储的方式使得HDFS能够支持大规模的数据存储和并行处理。

HDFS并不适合所有类型的数据存储和处理场景。它不适用于要求低时间延迟数据访问的应用,也不适合存储大量的小文件,以及多用户写入或任意修改文件的场景。这是因为HDFS的设计初衷是为了处理大规模数据集,而牺牲了一定的灵活性和实时性。

HDFS是一个为大规模数据处理而设计的分布式文件系统,具有高可靠性、可扩展性和高吞吐量等特点,是Hadoop生态系统中不可或缺的一部分。

目录
相关文章
|
17天前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
95 6
|
18天前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
45 3
|
18天前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
35 2
|
18天前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
34 1
|
18天前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
37 0
|
18天前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
56 0
|
18天前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
29 0
|
18天前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
37 0
|
17天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
45 2
|
13天前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
27 1