带你读《存储漫谈Ceph原理与实践》第一章分布式存储概述1.2各主流分布式方案对比（一）-阿里云开发者社区

带你读《存储漫谈Ceph原理与实践》第一章分布式存储概述1.2各主流分布式方案对比（一）

2021-10-18 686

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

对象存储 OSS，内容安全 1000次 1年

简介： 《存储漫谈Ceph原理与实践》第一章分布式存储概述1.2各主流分布式方案对比

1.2各主流分布式方案对比

分布式存储系统种类繁多，通常按照使用场景，可将分布式存储系统划分为分布式块存储、分布式文件存储以及分布式对象存储3类，如图 1-6所示。

图 1-6分布式存储系统分类

块存储将裸磁盘空间直接映射给主机使用，主机层面操作系统识别出磁盘后，可对磁盘进行分区、格式化文件系统或者直接进行裸设备读写。块存储使用线性地址空间，不关心数据的组织方式以及结构，读写速度更快，但共享性较差。

文件存储将文件系统直接挂载给主机使用，主机层面操作系统可对挂载后的文件系统直接进行读写，读写操作遵循POSIX（PortableOperatingSystemInterfaceofUNIX）语义，类似操作本地文件系统。文件存储使用树状结构以及路径访问方式，更方便理解、记忆，更适合结构化数据的存取，共享性更好，但读写性能较差。

对象存储介于块存储与文件存储之间，以restfulapi或者客户端 sdk的形式供用户使用，更适合非结构化数据的存取。对象存储使用统一的底层存储系统，管理文件以及底层介质的组织结构，然后为每个文件分配一个唯一的标识，用户需要访问某个文件，直接提供文件的标识即可。

除以上 3 种分布式存储方案的划分外，分布式存储系统还可分为分布式数据库系统和分布式缓存系统等。

从架构角度切入，无论是分布式块存储系统、分布式对象存储系统、分布式文件存储系统，抑或是分布式数据库系统、分布式缓存系统，其架构无外乎以下两种。

◆ 有中心架构

有中心架构下，分布式存储集群实现统一的元数据服务，元数据统一存储并管理，客户端发起对数据的读写前，先向元数据服务器发起读写请求。

◆ 无中心架构

无中心架构下，分布式存储系统没有单独的元数据服务，元数据与数据一样，切片打散后存储在多台存储服务器上，客户端通过特定算法进行计算，确定元数据及数据的存储位置，并直接向存储节点相关进程发起数据的读写访问请求。依照使用的算法类型，无中心架构又可细分为私有算法模式以及一致性散列（Hash）模式。

下文以HDFS、Ceph、Swift为例，对 3 种方案做简要对比。

1.2.1 有中心架构

HDFS（HadoopDistributionFileSystem）是有中心分布式存储系统的典型代表。在这种架构中，一部分节点NameNode用于存放管理数据（元数据文件），另一部分节点 DataNode用于存放业务数据（数据文件），其系统架构如图1-7所示。

在图1-7中，如果客户端需要从某个文件读取数据，首先从NameNode获取该文件的位置信息（具体在哪个DataNode），然后从该DataNode上获取具体的数据。在该架构中NameNode通常是主备部署，而DataNode则是由大量服务器节点构成一个存储集群。由于元数据的访问频度和访问量相对数据都要小很多（参见后文HDFS使用场景），因此 NameNode 通常不会成为性能瓶颈；DataNode 在集群中通常将数据以副本形式存放，该策略下既可以保证数据的高可用性，又可以分散客户端的请求。因此，这种分布式存储架构可以横向扩展 DataNode 的数量来增加存储系统的承载能力，也即实现系统的动态横向扩展。

HDFS目前主要用于大数据的存储场景，HDFS也是 Hadoop大数据架构中的存储组件。HDFS在开始设计的时候，就已经明确了它的应用场景（即大数据服务），具体如下：

图 1-7HOFS系统架构

（1）对大文件存储的性能要求比较高的业务场景

HDFS采用集中式元数据的方式进行文件管理，元数据保存在 NameNode的内存中，文件数量的增加会占用大量的NameNode内存。即当 HDFS 存储海量小文件时，元数据会占用大量内存空间，引起整个分布式存储系统性能的下降。由于此限制，HDFS 更适合应用在存储大文件的使用场景，文件大小以百 MB级别或者 GB级别为宜。

（2）读多写少的业务场景

HDFS 的数据传输吞吐量比较高，但是数据写入时延比较差，因此，HDFS不适合频繁的数据写入场景，但就大数据分析业务而言，其处理模式通常为一次写入、多次读取，然后进行数据分析工作，HDFS可以胜任该场景。

带你读《存储漫谈Ceph原理与实践》第一章分布式存储概述1.2各主流分布式方案对比（一）

1.2各主流分布式方案对比

1.2.1 有中心架构

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

带你读《存储漫谈Ceph原理与实践》第一章分布式存储概述1.2各主流分布式方案对比（一）

1.2各主流分布式方案对比

1.2.1 有中心架构

热门文章

最新文章

相关课程

相关电子书

相关实验场景