【赵渝强老师】Hadoop HDFS的快照

简介: Hadoop HDFS快照是文件系统或目录在某一时刻的镜像,提供备份机制,适用于防止错误操作、备份数据、测试环境搭建及灾难恢复等场景。通过管理员命令可开启目录快照功能,并使用操作命令创建、删除、重命名快照。文章演示了具体操作步骤,包括创建两个快照并进行对比,展示了如何通过命令行和Web Console查看快照信息。

b384.png

Hadoop HDFS的快照(Snapshot)是一个全部文件系统、或者某个目录在某一时刻的镜像。这里其实可以把HDFS的快照理解成是HDFS提供的一种备份机制。快照应用在以下场景中:


  • 防止用户的错误操作
  • 备份
  • 试验/测试
  • 灾难恢复


视频讲解如下:


由于HDFS的快照功能是针对的目录,因此需要首先使用HDFS的管理员命令开启目录的快照功能,再使用HDFS的操作命令创建目录的快照。

#与快照相关的HDFS管理命令
  [-allowSnapshot <snapshotDir>]
  [-disallowSnapshot <snapshotDir>]
  
#与快照相关的HDFS操作命令
  [-createSnapshot <snapshotDir> [<snapshotName>]]
  [-deleteSnapshot <snapshotDir> <snapshotName>]
  [-renameSnapshot <snapshotDir> <oldName> <newName>]


下面通过具体的步骤来演示如何使用HDFS的快照。

(1)开启/input目录的快照功能。

hdfs dfsadmin -allowSnapshot /input


(2)为/input目录创建第一个快照。

hdfs dfs -createSnapshot /input bk_input_20250817_01

# 在创建HDFS快照的时候,最好遵循一个良好的命名规则。
# 例如,这里创建的快照名称为bk_input_20250817_01,
# 表示在2025年8月17日为input目录创建的第一个快照。


(3)上传一个新的文件到/input目录,如:data1.txt。

hdfs dfs -put data1.txt /input


(4)为/input目录创建第二个快照。

hdfs dfs -createSnapshot /input bk_input_20250817_02


(5)对比/input目录的两个快照。

hdfs snapshotDiff /input bk_input_20250817_01 bk_input_20250817_02

# 输出的信息如下:
Difference between snapshot bk_input_20250817_01 and 
snapshot bk_input_20250817_02 under directory /input:
M .
+ ./data1.txt

# 通过对比快照可以看出第二个快照比第一个快照多了一个文件data1.txt。


(6)通过HDFS的Web Console也可以查看快照的相关信息,如下图所示。

image.png


相关文章
|
传感器 物联网 数据处理
认识IoT的基本概念和架构
物联网(Internet of Things, IoT)是现代信息技术的重要组成部分,通过将物理设备连接到互联网,实现设备之间的互联和数据交换。随着传感技术、通信技术和数据处理能力的不断提升,物联网在各个领域展现出巨大的潜力和应用前景。本文将介绍物联网的基本概念、架构、关键技术及其应用场景,并探讨其未来的发展趋势。
2971 3
|
分布式计算 资源调度 Hadoop
|
7月前
|
分布式计算 关系型数据库 MySQL
【赵渝强老师】大数据交换引擎Sqoop
Sqoop是一款开源工具,用于在Hadoop与传统数据库如Oracle、MySQL之间传输数据。它基于MapReduce实现,支持数据导入导出、生成Java类及Hive表结构等操作,适用于大数据处理场景。
185 3
【赵渝强老师】大数据交换引擎Sqoop
|
1月前
|
存储 小程序 对象存储
阿里云OSS对象存储标准本地冗余40G资源包重磅回归 - 1年仅需9元!续费同价!
阿里云OSS限时回归40G小容量资源包,1年仅需9元!500G仅118.99/年!续费同价!低成本畅享高可靠、高稳定云存储,适合个人站长、开发者及小程序静态资源托管。限量抢购,速戳→
235 7
|
分布式计算 Hadoop Linux
Centos7配置Hadoop出现Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)的解决
Centos7配置Hadoop出现Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)的解决
2468 0
|
开发框架 前端开发 定位技术
Flutter框架中的插件市场及开源资源的利用方法。内容涵盖插件市场的扩展功能、时间节省与质量保证
本文深入探讨了Flutter框架中的插件市场及开源资源的利用方法。内容涵盖插件市场的扩展功能、时间节省与质量保证,常见插件市场的介绍,选择合适插件的策略,以及开源资源的利用价值与注意事项。通过案例分析和对社区影响的讨论,展示了这些资源如何促进开发效率和技术进步,并展望了未来的发展趋势。
312 11
|
SQL 资源调度 数据库连接
Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南
在Tez上优化Hive查询,包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈(如mapper/reducer任务和连接操作),理解Tez如何动态调整mapper和reducer数量。例如,`tez.grouping.max-size` 影响mapper数量,`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`
1560 0
|
XML API 数据库
商品详情数据API接口概念(sku详情图属性等全面的解析)
商品详情数据API接口是指一种编程接口(API, Application Programming Interface),它允许开发者或系统以编程方式获取商品的详细信息,包括但不限于SKU(Stock Keeping Unit,库存量单位)的详细信息、商品图片、商品属性、价格、库存状态、用户评价等。这种接口通常由电商平台、商品数据库服务商或第三方数据提供商提供,旨在帮助开发者或企业快速集成商品数据到其应用程序或系统中。
|
Python Windows
PDF转Images
PDF转Images
246 1
|
Java Linux iOS开发
8 种 Java- 内存溢出之五 -Unable to create new native thread
8 种 Java- 内存溢出之五 -Unable to create new native thread