多态存储 && 对HDFS概念的理解

简介: 多态存储 && 对HDFS概念的理解

HDFS

20180902153830252.png

随着时间的推移,DB的数据量越来越大,当几年之后,历史数据对DB来说是一个庞然大物,如果采用传统的存储是及其耗费空间的,结合实际业务,历史数据的使用除了客诉品需要查跨年的数据其他情况基本不会再用到那些历史数据。此时,我们可以充分利用我们分布式作业系统,将这些历史数据存储在HDFS上。


另外一种方式就是


HDFS,流式数据访问模式一次写入、多次读取是高效的访问模式。数据集通常由数据源生成或从数据源复制而来,接着长时间在此数据集上进行各类分析。每次分析都会涉及该数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要)来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。


HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。


HDFS 数据块别于普通文件存储的地方:


每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位,构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的整数倍。HDFS同样也有块的概念,但是大得多,默认为64MB。与单一磁盘上的文件系统相似,HDFS上的文件也被划分为多个分块,作为独立的存储单元。与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间。


HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块,默认大小是64MB。


使用数据块的好处是:


一个文件的大小可以大于网络中任意一个磁盘的容量。(为什么? 这里要注意hdfs中小于一个块的文件是不会占据整个数据块的,,那么把这些数据块进行抽象起来就有了“一个文件的大小可以大于网络中任意一个磁盘的容量”)文件的所有块不需要存储在同一个磁盘上,因此它们可以利用集群上的任意一个磁盘进行存储。(核心)

简化了存储子系统的设计,将存储子系统控制单元设置为块,可简化存储管理,同时元数据就不需要和块一同存储,用一个单独的系统就可以管理这些块的元数据。

数据块适合用于数据备份进而提供数据容错能力和提高可用性。

可参照学习的地址:https://yq.aliyun.com/articles/32300


目录
相关文章
|
9月前
|
存储 分布式计算 Hadoop
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
286 3
|
8月前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
739 4
|
9月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
389 2
|
5月前
|
存储 分布式计算 资源调度
通过日志聚合将作业日志存储在HDFS中
如何通过配置Hadoop的日志聚合功能,将作业日志存储在HDFS中以实现长期保留,并详细说明了相关配置参数和访问日志的方法。
64 0
通过日志聚合将作业日志存储在HDFS中
|
6月前
|
存储 机器学习/深度学习 分布式计算
HDFS与网络附加存储(NAS)的比较
【8月更文挑战第31天】
181 0
|
8月前
|
存储 分布式计算 NoSQL
|
9月前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据块基本概念
【5月更文挑战第19天】
124 1
|
9月前
|
存储 分布式计算 数据管理
HDFS中的数据一致性是如何保证的?请解释数据一致性的概念和实现方式。
HDFS中的数据一致性是如何保证的?请解释数据一致性的概念和实现方式。
323 0
|
9月前
|
存储 分布式计算 Hadoop
HDFS如何处理大文件和小文件的存储和访问?
HDFS如何处理大文件和小文件的存储和访问?
197 0
|
9月前
|
存储 分布式计算 资源调度
[hadoop3.x]HDFS中的内存存储支持(七)概述
[hadoop3.x]HDFS中的内存存储支持(七)概述
114 0