开发者学堂课程【分布式文件存储系统技术及实现:数据混合存储 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/368/detail/4387
数据混合存储
内容介绍
一、不同存储介质的特性
二、 HDFS 混合存储
三、 RAMCloud 内存存储
这节课主要讲的是不同存储介质的特性以及 HDFS 混合存储的应用方式和存储方式,以及其优点,最后还对 RAMCloud 内存存储进行讲解。
一、不同存储介质的特性
|
磁盘 |
SSD |
内存 |
容量 |
1-4TB |
400-800GB |
24-128GB |
延时 |
10ms |
50-75us |
100ns |
吞吐 |
100-200MB/s |
400MB/s |
20GB/s |
成本 |
低 |
中 |
高 |
二、HDFS 混合存储
1.应用方式:
在以前 Datanode 汇报给 Namenode 的时候只会有一种 data 的存储,而在新版的 HDFS 中,Datanode 会将本地的 SSD 以及磁盘区分开来,以两种介质的方式汇报给 Namenode ,这时候用户在存放自己信息的时候会选择某几份放在高性能的 SSD 上,另外几份放在磁盘上,这样 SSD 可以充分利用读缓存提高读的性能,大部分 cope 还是放在上面,可以很多的提高成本。
2.存储方式:
Namenode 会划分不同的 volume ,不同存储类型的文件会放在不同的 volume上,这样的方式可以有效的解决由于 mate 中需要记住存储类型而产生的 mate 维护链,但同时在 volume 之间移动数据的时候也会改变文件的介质存储类型。
Pangu 的谷歌存储技术从 HDFS 中采用了不同的方式,不会暴露给用户后端的介质类型,所以说在用户结束数据的时候反之后端有 SSD 的存在。
在写入的时候,为了提高性能,写入的数据会以连续的方式放到 HDFS 上 作为写缓存,这样用户感知到的是 SSD 的写作性能,在后端 Pangu 会对 SSD 上连续写入的数据进行拆分,分到本该属于的逻辑范围中,在后台导入到大容量存储的磁盘上,在读槽发生的过程中会查询内存中维护的布局位置信息,比如有一部分的位置信息还在 SSD 中,另一部分的数据移到了磁盘上,这时候可以从两种介质分别读取对应的数据,组织好之后完成读的过程。
3.优点:
有效降低用户感知磁盘介质带来的维护难度,有利于给进行中的用户不感知的更换磁盘介质带来了有利的前提。
三、RAMCloud 内存存储
在这种架构下,用户在写入数据的时候,首先放到内存,然后即刻返回,为了减少内存,会对内存进行建设,同时内存中的数据会进行连续存储,当用户在读取数据的时候可以查找内存所有处对应的数据,在通过If的形式将内存中的数据写入到磁盘上,进行置顶化,在这种实验结果下,为了实现极度的写作性能以及读取性能,牺牲数据的安全性。