数据混合存储 | 学习笔记

简介: 快速学习数据混合存储

开发者学堂课程【分布式文件存储系统技术及实现:数据混合存储 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/368/detail/4387


数据混合存储

内容介绍

一、不同存储介质的特性

二、 HDFS 混合存储

三、 RAMCloud 内存存储

 

这节课主要讲的是不同存储介质的特性以及 HDFS 混合存储的应用方式和存储方式,以及其优点,最后还对 RAMCloud 内存存储进行讲解。

 

一、不同存储介质的特性

 

磁盘

SSD

内存

容量

1-4TB

400-800GB

24-128GB

延时

10ms

50-75us

100ns

吞吐

100-200MB/s

400MB/s

20GB/s

成本

 

二、HDFS 混合存储

1.应用方式:

在以前 Datanode 汇报给 Namenode 的时候只会有一种 data 的存储,而在新版的 HDFS 中,Datanode 会将本地的 SSD 以及磁盘区分开来,以两种介质的方式汇报给 Namenode ,这时候用户在存放自己信息的时候会选择某几份放在高性能的 SSD 上,另外几份放在磁盘上,这样 SSD 可以充分利用读缓存提高读的性能,大部分 cope 还是放在上面,可以很多的提高成本。

2.存储方式:

Namenode 会划分不同的 volume ,不同存储类型的文件会放在不同的 volume上,这样的方式可以有效的解决由于 mate 中需要记住存储类型而产生的 mate 维护链,但同时在 volume 之间移动数据的时候也会改变文件的介质存储类型。

Pangu 的谷歌存储技术从 HDFS 中采用了不同的方式,不会暴露给用户后端的介质类型,所以说在用户结束数据的时候反之后端有 SSD 的存在。

在写入的时候,为了提高性能,写入的数据会以连续的方式放到 HDFS 上 作为写缓存,这样用户感知到的是 SSD 的写作性能,在后端 Pangu 会对 SSD 上连续写入的数据进行拆分,分到本该属于的逻辑范围中,在后台导入到大容量存储的磁盘上,在读槽发生的过程中会查询内存中维护的布局位置信息,比如有一部分的位置信息还在 SSD 中,另一部分的数据移到了磁盘上,这时候可以从两种介质分别读取对应的数据,组织好之后完成读的过程。

3.优点:

有效降低用户感知磁盘介质带来的维护难度,有利于给进行中的用户不感知的更换磁盘介质带来了有利的前提。

 

三、RAMCloud 内存存储

image.png

在这种架构下,用户在写入数据的时候,首先放到内存,然后即刻返回,为了减少内存,会对内存进行建设,同时内存中的数据会进行连续存储,当用户在读取数据的时候可以查找内存所有处对应的数据,在通过If的形式将内存中的数据写入到磁盘上,进行置顶化,在这种实验结果下,为了实现极度的写作性能以及读取性能,牺牲数据的安全性。

相关文章
|
存储 分布式计算 并行计算
计算存储分离架构
计算存储分离架构
|
4月前
|
存储 固态存储 Linux
存储学习
存储学习
|
存储 编译器 C语言
数据的存储--深度解剖数据在内存中的存储(上)
数据的存储--深度解剖数据在内存中的存储(上)
|
8月前
|
机器学习/深度学习 Python
网络训练需要的混合类型数据的组织方式
网络训练需要的混合类型数据的组织方式
|
存储 机器学习/深度学习 程序员
数据在内存中的存储与各类型混合运算(下)
数据在内存中的存储与各类型混合运算
|
存储 人工智能 编译器
数据在内存中的存储与各类型混合运算(上)
数据在内存中的存储与各类型混合运算
|
存储 小程序 C++
深度理解数据在内存中的存储
深度理解数据在内存中的存储
117 0
|
存储 监控 负载均衡
海量非结构化数据存储中的小对象合并技术
随着人工智能, IoT 等技术的推广普及,智能监控,智能制造等新兴领域蓬勃发展,涌现出了越来越多的海量非结构化数据存储需求。
|
存储 编译器 程序员
数据的存储--深度解剖数据在内存中的存储(下)
数据的存储--深度解剖数据在内存中的存储(下)
|
存储 人工智能 弹性计算
《阿里云存储手册》——混合云存储
《阿里云存储手册》——混合云存储
252 0