多态存储 && 对HDFS概念的理解

简介: 多态存储 && 对HDFS概念的理解

HDFS

20180902153830252.png

随着时间的推移,DB的数据量越来越大,当几年之后,历史数据对DB来说是一个庞然大物,如果采用传统的存储是及其耗费空间的,结合实际业务,历史数据的使用除了客诉品需要查跨年的数据其他情况基本不会再用到那些历史数据。此时,我们可以充分利用我们分布式作业系统,将这些历史数据存储在HDFS上。


另外一种方式就是


HDFS,流式数据访问模式一次写入、多次读取是高效的访问模式。数据集通常由数据源生成或从数据源复制而来,接着长时间在此数据集上进行各类分析。每次分析都会涉及该数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要)来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。


HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。


HDFS 数据块别于普通文件存储的地方:


每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位,构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的整数倍。HDFS同样也有块的概念,但是大得多,默认为64MB。与单一磁盘上的文件系统相似,HDFS上的文件也被划分为多个分块,作为独立的存储单元。与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间。


HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块,默认大小是64MB。


使用数据块的好处是:


一个文件的大小可以大于网络中任意一个磁盘的容量。(为什么? 这里要注意hdfs中小于一个块的文件是不会占据整个数据块的,,那么把这些数据块进行抽象起来就有了“一个文件的大小可以大于网络中任意一个磁盘的容量”)文件的所有块不需要存储在同一个磁盘上,因此它们可以利用集群上的任意一个磁盘进行存储。(核心)

简化了存储子系统的设计,将存储子系统控制单元设置为块,可简化存储管理,同时元数据就不需要和块一同存储,用一个单独的系统就可以管理这些块的元数据。

数据块适合用于数据备份进而提供数据容错能力和提高可用性。

可参照学习的地址:https://yq.aliyun.com/articles/32300


目录
相关文章
|
4月前
|
存储 固态存储 文件存储
[hadoop3.x]HDFS存储类型和存储策略(五)概述
[hadoop3.x]HDFS存储类型和存储策略(五)概述
67 1
|
6月前
|
数据采集 存储 Java
【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】
【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】
|
8月前
|
存储 SQL 分布式计算
阿里云全托管flink-vvp平台hudi connector实践(基于emr集群oss-hdfs存储)
阿里云全托管flink-vvp平台hudi sink connector实践,本文数据湖hudi基于阿里云E-MapReduce产品,以云对象存储oss-hdfs作为存储
|
6月前
|
存储 分布式计算 固态存储
我们一起学习Hdfs的异构存储
我们一起学习Hdfs的异构存储
|
4月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
124 0
|
3月前
|
存储 分布式计算 数据管理
HDFS中的数据一致性是如何保证的?请解释数据一致性的概念和实现方式。
HDFS中的数据一致性是如何保证的?请解释数据一致性的概念和实现方式。
88 0
|
3月前
|
存储 分布式计算 Hadoop
HDFS如何处理大文件和小文件的存储和访问?
HDFS如何处理大文件和小文件的存储和访问?
48 0
|
4月前
|
存储 分布式计算 资源调度
[hadoop3.x]HDFS中的内存存储支持(七)概述
[hadoop3.x]HDFS中的内存存储支持(七)概述
51 0
|
4月前
|
存储 分布式计算 Hadoop
[hadoop3.x]HDFS存储策略和冷热温三阶段数据存储(六)概述
[hadoop3.x]HDFS存储策略和冷热温三阶段数据存储(六)概述
61 0
|
6月前
|
存储 分布式计算 数据挖掘
10 HDFS基本概念
10 HDFS基本概念
25 0