数据混合存储 | 学习笔记

简介: 快速学习数据混合存储

开发者学堂课程【分布式文件存储系统技术及实现:数据混合存储 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/368/detail/4387


数据混合存储

内容介绍

一、不同存储介质的特性

二、 HDFS 混合存储

三、 RAMCloud 内存存储

 

这节课主要讲的是不同存储介质的特性以及 HDFS 混合存储的应用方式和存储方式,以及其优点,最后还对 RAMCloud 内存存储进行讲解。

 

一、不同存储介质的特性

 

磁盘

SSD

内存

容量

1-4TB

400-800GB

24-128GB

延时

10ms

50-75us

100ns

吞吐

100-200MB/s

400MB/s

20GB/s

成本

 

二、HDFS 混合存储

1.应用方式:

在以前 Datanode 汇报给 Namenode 的时候只会有一种 data 的存储,而在新版的 HDFS 中,Datanode 会将本地的 SSD 以及磁盘区分开来,以两种介质的方式汇报给 Namenode ,这时候用户在存放自己信息的时候会选择某几份放在高性能的 SSD 上,另外几份放在磁盘上,这样 SSD 可以充分利用读缓存提高读的性能,大部分 cope 还是放在上面,可以很多的提高成本。

2.存储方式:

Namenode 会划分不同的 volume ,不同存储类型的文件会放在不同的 volume上,这样的方式可以有效的解决由于 mate 中需要记住存储类型而产生的 mate 维护链,但同时在 volume 之间移动数据的时候也会改变文件的介质存储类型。

Pangu 的谷歌存储技术从 HDFS 中采用了不同的方式,不会暴露给用户后端的介质类型,所以说在用户结束数据的时候反之后端有 SSD 的存在。

在写入的时候,为了提高性能,写入的数据会以连续的方式放到 HDFS 上 作为写缓存,这样用户感知到的是 SSD 的写作性能,在后端 Pangu 会对 SSD 上连续写入的数据进行拆分,分到本该属于的逻辑范围中,在后台导入到大容量存储的磁盘上,在读槽发生的过程中会查询内存中维护的布局位置信息,比如有一部分的位置信息还在 SSD 中,另一部分的数据移到了磁盘上,这时候可以从两种介质分别读取对应的数据,组织好之后完成读的过程。

3.优点:

有效降低用户感知磁盘介质带来的维护难度,有利于给进行中的用户不感知的更换磁盘介质带来了有利的前提。

 

三、RAMCloud 内存存储

image.png

在这种架构下,用户在写入数据的时候,首先放到内存,然后即刻返回,为了减少内存,会对内存进行建设,同时内存中的数据会进行连续存储,当用户在读取数据的时候可以查找内存所有处对应的数据,在通过If的形式将内存中的数据写入到磁盘上,进行置顶化,在这种实验结果下,为了实现极度的写作性能以及读取性能,牺牲数据的安全性。

相关文章
|
2月前
|
存储 固态存储 Linux
存储学习
存储学习
|
存储 编译器 C语言
数据的存储--深度解剖数据在内存中的存储(上)
数据的存储--深度解剖数据在内存中的存储(上)
|
存储 编译器 程序员
数据的存储--深度解剖数据在内存中的存储(下)
数据的存储--深度解剖数据在内存中的存储(下)
|
存储 人工智能 弹性计算
《阿里云存储手册》——混合云存储
《阿里云存储手册》——混合云存储
242 0
|
存储 SQL NoSQL
市面常见数据存储方式的简单介绍
下面是市面上一些存储方式概念的简单介绍,包含关系型数据库,非关系型数据库,内存数据库,数据仓库,对象存储,图数据库,时序数据库和多维数据库
1635 0
|
存储 缓存 固态存储
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
|
存储 缓存 固态存储
传统存储介绍 | 学习笔记
快速学习 传统存储介绍
传统存储介绍 | 学习笔记
|
存储 移动开发 缓存
H5存储|学习笔记
快速学习H5存储
H5存储|学习笔记
|
存储 监控 物联网
时间序列数据的存储和计算 - 概述
什么是时间序列数据   什么是时间序列(Time Series,以下简称时序)数据?从定义上来说,就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。
20714 0
|
存储 分布式数据库 Hbase
时间序列数据的存储和计算 - 开源时序数据库解析(一)
开源时序数据库   如图是17年6月在db-engines上时序数据库的排名,我会挑选开源的、分布式的时序数据库做详细的解析。前十的排名中,RRD是一个老牌的单机存储引擎,Graphite底层是Whisper,可以认为是一个优化的更强大的RRD数据库。
20013 0
下一篇
无影云桌面