数据混合存储 | 学习笔记

简介: 快速学习数据混合存储

开发者学堂课程【分布式文件存储系统技术及实现:数据混合存储 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/368/detail/4387


数据混合存储

内容介绍

一、不同存储介质的特性

二、 HDFS 混合存储

三、 RAMCloud 内存存储

 

这节课主要讲的是不同存储介质的特性以及 HDFS 混合存储的应用方式和存储方式,以及其优点,最后还对 RAMCloud 内存存储进行讲解。

 

一、不同存储介质的特性

 

磁盘

SSD

内存

容量

1-4TB

400-800GB

24-128GB

延时

10ms

50-75us

100ns

吞吐

100-200MB/s

400MB/s

20GB/s

成本

 

二、HDFS 混合存储

1.应用方式:

在以前 Datanode 汇报给 Namenode 的时候只会有一种 data 的存储,而在新版的 HDFS 中,Datanode 会将本地的 SSD 以及磁盘区分开来,以两种介质的方式汇报给 Namenode ,这时候用户在存放自己信息的时候会选择某几份放在高性能的 SSD 上,另外几份放在磁盘上,这样 SSD 可以充分利用读缓存提高读的性能,大部分 cope 还是放在上面,可以很多的提高成本。

2.存储方式:

Namenode 会划分不同的 volume ,不同存储类型的文件会放在不同的 volume上,这样的方式可以有效的解决由于 mate 中需要记住存储类型而产生的 mate 维护链,但同时在 volume 之间移动数据的时候也会改变文件的介质存储类型。

Pangu 的谷歌存储技术从 HDFS 中采用了不同的方式,不会暴露给用户后端的介质类型,所以说在用户结束数据的时候反之后端有 SSD 的存在。

在写入的时候,为了提高性能,写入的数据会以连续的方式放到 HDFS 上 作为写缓存,这样用户感知到的是 SSD 的写作性能,在后端 Pangu 会对 SSD 上连续写入的数据进行拆分,分到本该属于的逻辑范围中,在后台导入到大容量存储的磁盘上,在读槽发生的过程中会查询内存中维护的布局位置信息,比如有一部分的位置信息还在 SSD 中,另一部分的数据移到了磁盘上,这时候可以从两种介质分别读取对应的数据,组织好之后完成读的过程。

3.优点:

有效降低用户感知磁盘介质带来的维护难度,有利于给进行中的用户不感知的更换磁盘介质带来了有利的前提。

 

三、RAMCloud 内存存储

image.png

在这种架构下,用户在写入数据的时候,首先放到内存,然后即刻返回,为了减少内存,会对内存进行建设,同时内存中的数据会进行连续存储,当用户在读取数据的时候可以查找内存所有处对应的数据,在通过If的形式将内存中的数据写入到磁盘上,进行置顶化,在这种实验结果下,为了实现极度的写作性能以及读取性能,牺牲数据的安全性。

相关文章
|
存储 分布式计算 并行计算
计算存储分离架构
计算存储分离架构
|
3月前
|
存储 固态存储 Linux
存储学习
存储学习
|
7月前
|
存储 缓存 固态存储
|
存储 编译器 C语言
数据的存储--深度解剖数据在内存中的存储(上)
数据的存储--深度解剖数据在内存中的存储(上)
|
存储 人工智能 编译器
数据在内存中的存储与各类型混合运算(上)
数据在内存中的存储与各类型混合运算
|
存储 编译器 程序员
数据的存储--深度解剖数据在内存中的存储(下)
数据的存储--深度解剖数据在内存中的存储(下)
|
存储 缓存 固态存储
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
|
存储 缓存 固态存储
传统存储介绍 | 学习笔记
快速学习 传统存储介绍
传统存储介绍 | 学习笔记
|
存储 NoSQL 架构师
架构视角-文件的通用存储原理
架构师是互联网行业高薪又紧俏的资源。成为架构师最基本的是设计能力。设计与设计的区别主要体现在两方面: 1,深度:要解决哪些问题?这个问题背后的根本问题是什么?还有什么问题没有发现?对应的能力是发现和解决问题的能力。 2,体系:要解决的问题的属于哪一类的问题?这类问题能否进一步抽象,让系统解决更大的问题?对应的抽象归纳和体系化思维的能力。
架构视角-文件的通用存储原理
|
存储 机器学习/深度学习 编解码
机器学习将非结构化二级存储数据变为可全局访问的数据
实现转型和变革的关键是数据,因为糟糕的数据会带来糟糕的洞察力,而良好的数据会带来良好的洞察力。对大多数组织来说,问题是他们可能有一个很好的主存储数据管理策略,但他们从二级存储中找到洞察的能力则通常是不存在的。
243 0
机器学习将非结构化二级存储数据变为可全局访问的数据