Hadoop Distributed File System (HDFS): 概念、功能点及实战

简介: 【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。

Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。本文将详细介绍 HDFS 的概念、功能点以及实际操作,并通过原型图帮助你更好地理解其架构和工作机制。

目录

  1. 概念
  2. 功能点
  3. HDFS 架构
  4. 实战指南
  5. 小结

1. 概念

HDFS 是一个分布式文件系统,设计用于在大规模集群环境中存储和管理海量数据。它借鉴了 Google File System (GFS) 的设计思想,具备高容错性和高吞吐量的特点,适用于大数据处理应用。

HDFS 的核心思想是将大文件拆分成较小的块(block),并将这些块分布式存储在集群中的多个节点上。这样即使部分节点发生故障,数据仍然可以通过其他节点进行访问。

2. 功能点

HDFS 提供了许多关键功能,确保其在大规模数据处理环境中的可靠性和高效性。

2.1 块存储

HDFS 将大文件拆分成固定大小的块(默认 128MB),每个块独立存储在不同的 DataNode 上。这种设计使得文件存储和处理更加高效。

2.2 数据冗余

为了提高容错能力,HDFS 对每个数据块进行多副本存储(默认 3 副本)。即使某个节点发生故障,其他节点的副本仍能提供数据访问。

2.3 数据完整性

HDFS 使用校验和(checksum)确保数据的完整性。在数据写入和读取过程中,HDFS 会进行校验和验证,确保数据没有损坏。

2.4 数据流转

HDFS 支持单次写操作和多次读操作(WORM)。一旦文件写入 HDFS,它将不能被修改,只能追加或读取。这种设计简化了数据一致性的管理。

2.5 高可用性

HDFS 通过主从架构实现高可用性。NameNode 是主节点,负责管理文件系统的元数据;DataNode 是从节点,负责存储实际的数据块。

3. HDFS 架构

HDFS 的架构由多个组件组成,主要包括 NameNode、DataNode 和 Secondary NameNode。

3.1 NameNode

NameNode 是 HDFS 的主节点,负责管理文件系统的元数据,包括文件目录树、文件块信息等。它不存储实际的数据块,但管理所有数据块的位置信息。

3.2 DataNode

DataNode 是 HDFS 的从节点,负责存储实际的数据块。每个 DataNode 周期性地向 NameNode 发送心跳信息和数据块报告,用于状态监控和数据管理。

3.3 Secondary NameNode

Secondary NameNode 不是 NameNode 的备份,而是定期从 NameNode 获取元数据快照,并将其合并到一个新的元数据文件中,以减轻 NameNode 的负担。

HDFS 架构原型图

plaintext复制代码

+---------------------+     +---------------------+
|                     |     |                     |
|      Client         |     |      Client         |
|                     |     |                     |
+---------------------+     +---------------------+
            |                       |
            +-----------------------+
             |
             v
+---------------------+
|      NameNode       |
|  (主节点,元数据管理)  |
+---------------------+
             |
             +-----------------------------------+
             |                                   |
             v                                   v
+---------------------+               +---------------------+
|     DataNode 1      |               |     DataNode 2      |
|  (从节点,数据存储)   |               |  (从节点,数据存储)   |
+---------------------+               +---------------------+
             |                                   |
             +-------------------+               |
             |                   |               |
             v                   v               v
      数据块1、块2、块3            数据块1、块2、块3             数据块1、块2、块3

4. 实战指南

环境准备

确保你已经安装并配置好 Hadoop 环境。你可以参考 Hadoop 官方文档进行安装。

启动 HDFS 服务

  1. 格式化 NameNode(首次启动时执行):

bash复制代码

hdfs namenode -format
  1. 启动 HDFS 服务:

bash复制代码

start-dfs.sh

基本操作

  1. 创建目录:

bash复制代码

hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/hadoop
  1. 上传文件:

bash复制代码

hdfs dfs -put localfile.txt /user/hadoop/
  1. 查看文件:

bash复制代码

hdfs dfs -ls /user/hadoop/
  1. 下载文件:

bash复制代码

hdfs dfs -get /user/hadoop/localfile.txt downloadfile.txt
  1. 删除文件:

bash复制代码

hdfs dfs -rm /user/hadoop/localfile.txt

实战示例

假设我们有一个大数据文件 data.txt,需要将其上传到 HDFS 并进行数据处理。

  1. 上传数据文件:

bash复制代码

hdfs dfs -put data.txt /user/hadoop/
  1. 查看文件信息:

bash复制代码

hdfs dfs -ls /user/hadoop/
  1. 数据处理(例如,统计词频):

你可以使用 MapReduce 或 Spark 等大数据处理框架对 HDFS 中的数据进行处理。这里以 MapReduce 为例:

创建一个简单的词频统计 MapReduce 程序:

java复制代码

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

编译并执行该程序:

bash复制代码

hadoop jar wordcount.jar WordCount /user/hadoop/data.txt /user/hadoop/output

查看输出结果:

bash复制代码

hdfs dfs -cat /user/hadoop/output/part-r-00000

5. 小结

通过本文,我们详细介绍了 Hadoop Distributed File System (HDFS) 的概念、功能点及其实战操作。HDFS 是一个高吞吐量、高容错性的分布式文件系统,适用于大数据处理应用。我们通过实例代码演示了如何在 HDFS 中执行基本操作,并进行了简单的数据处理。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
4天前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
|
5天前
|
存储 分布式计算 安全
|
12天前
|
存储 分布式计算 资源调度
|
12天前
|
存储 分布式计算 NoSQL
|
1月前
|
存储 分布式计算 运维
Hadoop的HDFS的特点高吞吐量
【5月更文挑战第11天】Hadoop的HDFS的特点高吞吐量
26 4
|
1月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
165 2
|
20天前
|
存储 分布式计算 Hadoop
|
20天前
|
存储 分布式计算 Hadoop
Hadoop节点HDFS数据块的作用
【5月更文挑战第19天】
26 3
|
20天前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据块基本概念
【5月更文挑战第19天】
24 1
|
21天前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据分片过程
【5月更文挑战第18天】
26 1

相关实验场景

更多