分布式存储大行其道 浪潮AS13000何以“木秀于林”?

简介:
   从大数据元年到“互联网+”,可以看到在每一天每一分钟里,数据都在被大量的创造出来。根据2014年的统计数据,一分钟EMAIL用户发送204,000,000封电子邮件、Google收到4,000,000搜索请求、FACEBOOK用户分享2,460,000条内容……类似的例子可以列出很多,用几个简单的词可以概括海量数据的特点,就是超大规模、快速、多样。

应对海量数据存储需求,目前国内外存储厂商大多采用分布式存储技术,技术比较过硬同时业界口碑比较好的有EMC的Isilon、浪潮的AS13000和华为的OceanStor 9000。今天,小编就来为大家扒一扒,分布式存储技术是如何发展起来的?作为广电总局、华强文化等单位都青睐的海量存储产品AS13000,在分布式存储技术上又有何优胜之处,在非线编、影像处理等应用上做了哪些优化?

架构之争,集中式还是分布式,业务需求是道“分水岭”

所谓集中式存储,是基于网络的存储系统,主要包括DAS存储(直接附加存储)、NAS(网络附加存储,提供文件级的数据访问和共享服务)、SAN(存储区域网络,针对海量的面向数据块的数据传输)这3种存储组网形式,其中SAN和NAS在实际应用中比较常用。

所谓分布式存储,就是将数据分散存储在多台独立的设备上。

现在问题来了,既然集中存储已经能够满足一定规模的企业数据访问和存储需求,为什么还会出现分布式存储呢?

这个问题也不是一个“既生瑜,何生亮”的矛盾话题,应该说业务是采用不同架构的“分水岭”,业务规模不同,适用的存储模式也不同。

传统的网络存储系统采用集中的存储存放所有数据,比较适合业务应用相对固定、对数据一致性要求高、存储空间一般在几十TB~百TB容量以下且可预测范围内增长不大的业务场景。

而对于业务超大规模部署(如PB级)、数据量几何级增长的场景,集中存储成为系统性能的瓶颈,也是可靠性和安全性的“瓶颈”,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储设备分担数据并发访问负荷,利用一台控制设备进行统一调度和管理,这样一来不但提高了系统的可靠性、可用性和存取效率,还便于管理。

简单来看,在“互联网+”趋势下,云计算、大数据、移动化、社交网络为代表的第三平台兴起,业务对存储架构的需求更加灵活,对扩展性、存储性能有了更高要求,数据类型也更加丰富。这都给了分布式存储更多的发展空间。

同时,各个区域建立集中式还是分布式存储基础设施,很多时候和一个城市的空间布局有关。就拿北京一些政府部门来说吧,各个区域受限于地理位置、网络条件、机房承重、空调设计等问题,建立集中式的存储基础设施,就不如在各个区先建立分布式存储系统,再汇总到总中心。

大有不同,分布式存储不仅要看“颜值”更要看“细节”

前文提到业界多家厂商都在分布式存储上推出了自家的产品,这些产品单看“颜值”,功能上有很多共性,比如一般都能支持SAN、NAS、Object任一种数据类型,容量、性能线性提升,支持统一管理,降低TCO等等。但细看之下还是各有独特之处的,下面我们就拿浪潮分布式存储AS13000做个示例,看看这款产品有何特点吧。

浪潮分布式存储系统AS13000

NO.1可跨节点存放元数据或副本,提升可靠性

AS13000可将多份文件/对象/块数据分别或者一份文件/对象/块数据打散存储在多台独立的设备上,通过集群不同节点提供文件/对象/块数据级别的结构化或非结构化数据的存放与访问。

分布式存储是将文件/对象/块数据并行分布在多个节点上的存储系统,分布式存储能将SAN 连结到IP或FC网络,除块数据通过FC网络访问外,使IP 网络用户能通过NAS存储协议直接访问SAN 中的存储空间。

值得一提的是,在容灾能力方面,浪潮分布式存储可以跨机架存放副本,提升系统可靠性。这点在业内还是比较领先的,很多其他品牌的分布式存储只能在本机架内存放副本,一旦出现整机架故障,数据就可能损坏或丢失。

副本方式数据冗余,可跨节点部署副本

相比于传统的RAID技术,节点间的数据冗余具有以下优势:

l 更强的容灾能力:相对于RAID,副本机制具备更强的容灾能力,能够容忍任意形式的单点故障,包括断电、断网、磁盘损坏、系统崩溃等

l 更快的数据恢复速度:当单一节点出现异常时,系统的剩余节点会重新进行数据分布和复制以恢复容灾能力。该过程在所有存储节点间并行进行,数据恢复速度是RAID的10以上。

l 更低的成本:不需要通过阵列的方式实现数据的冗余,而使用存储服务器,具有更低的成本和更高的性价比

NO.2纠删码和集群间的数据重删,节约空间

分布式存储多用来存储大规模的数据,并且为了保障数据的高可用采用了多副本技术,为保障数据万无一失,副本当然是越多越好,就像AS13000能支持2-8个副本。然而可以想象,当数据规模是PB级以上时,每个副本也将消耗大量的存储空间,由此所带来的容量购置成本和系统运行成本的增长,实在让数据中心有些吃不消。

在副本技术外,浪潮分布式存储还支持纠删码,可以通过纠删码保障数据高可用,从而减少副本的需求量,给企业节约了成本。

这还不算,浪潮分布式存储还支持集群存储层级的数据重删,通过制定灵活的重删规则,显著提高存储空间的利用效率,进一步降低容量成本开支。

浪潮分布式存储可根据文件类型、大小、创建时间设定相关的重删规则

NO.3改进传输协议,获得更好的性能

对于非线编、视频制作等应用场景,经常是很多人一起参与同一个视频的加工,带宽成了影响工作效率的一个关键点。

传统NFS协议中,一个客户端只能对应一台服务器(但一个服务器可以给多个客户端提供服务),也就是一个NAS机头提供带宽服务,造成了客户端的带宽瓶颈。

浪潮对此进行了优化,在NFS协议基础上叠加了多路径技术,可以在一个客户端上插入多个网卡,根据内部负载调度算法,实现一个客户端使用多个NFS服务端的聚合带宽,给非线编和视频制作提供了强大的带宽支持。

此外,AS13000支持Windows和Linux等多种客户端,方便在不同的业务场景下部署。

同时,在IOPS优化方面,浪潮分布式存储技术有两种加速方式。其一是在全SATA盘的情况下,采用写数据直接落盘技术,可提升数据写入速度;其二是在SSD+HDD混合的情况下,对读写进行优化设计,数据先写入SSD,进行数据整合排列后,再把相对顺序且规整的数据写入HDD,在数据读取时,数据仍然是顺序的,减少了磁盘的寻址时间。这样一来,数据写和读过程中都提升磁头的工作效率,延迟也可大幅降低。

AS13000,技术上有更多精彩

刚才跟大家分享了浪潮分布式技术的几个小细节,比如跨节点副本存放、重删、纠删码、改进的协议等等。虽然说了很多,感到还是意犹未尽,像集群虚拟化、统一管理等和软件定义存储相关的技术还没来得及展开,不如放到专门的一篇软件定义存储技术稿里,下次再说个痛快吧。



作者:佚名
来源:51CTO
相关实践学习
函数计算部署PuLID for FLUX人像写真实现智能换颜效果
只需一张图片,生成程序员专属写真!本次实验在函数计算中内置PuLID for FLUX,您可以通过函数计算+Serverless应用中心一键部署Flux模型,快速体验超写实图像生成的魅力。
目录
相关文章
|
机器学习/深度学习 人工智能 PyTorch
从像素到洞见:图像分类技术的全方位解读
从像素到洞见:图像分类技术的全方位解读
395 0
|
数据库 Python
matplotlib绘制饼图之基本配置——万能模板案例
matplotlib绘制饼图之基本配置——万能模板案例
950 0
matplotlib绘制饼图之基本配置——万能模板案例
|
传感器 编解码 区块链
Google Earth Engine(GEE)——Landsat8/modis/sentinel2 NDVI时序影像差异对比分析图表
Google Earth Engine(GEE)——Landsat8/modis/sentinel2 NDVI时序影像差异对比分析图表
547 0
|
6月前
|
人工智能 供应链 数据可视化
数字孪生智慧园区管理平台,三维可视化系统,沃思智能
智慧园区加速发展,2025年全球市场规模将超3000亿美元。依托物联网、AI等技术,管理系统实现安防、能源、空间等全链条智能化,推动园区从“物业服务”向“数据运营”转型,助力产城融合与绿色发展。(238字)
667 138
|
9月前
|
数据可视化 JavaScript 图形学
实时云渲染将UE像素流嵌入业务系统,实现二维管理系统与数字孪生三维可视化程序的无缝交互
实时云渲染将UE开发的数字孪生三维可视化场景,一键嵌入智慧大脑等业务系统,用户在执行业务操作时,二维图表与三维可视化场景实时交互,通过WebSDK和数据通道等方式,实现丰富的二次开发功能,无缝对接园区、管网、城市、BIM/CIM等管理平台,适合于石油石化、安监安防、能源电力、冶金冶炼、航空航天、机场航务等各类数字孪生行业场景。
484 155
|
9月前
|
数据采集 API 调度
Python爬虫框架对比:Scrapy vs Requests在API调用中的应用
本文对比了 Python 中 Scrapy 与 Requests 两大爬虫框架在 API 调用中的差异,涵盖架构设计、调用模式、性能优化及适用场景,并提供实战建议,助力开发者根据项目需求选择合适工具。
|
NoSQL Unix Linux
Linux 操作系统的诞生与发展历程
步探索与准备: 1991年初,林纳斯·托瓦兹开始在一台386sx兼容微机上学习minix操作系统。通过学习,他逐渐不能满足于minix系统的现有性能,并开始酝酿开发一个新的免费操作系统。
582 8
Linux 操作系统的诞生与发展历程
|
存储 人工智能 安全
网络安全中的加密技术详解
【7月更文挑战第28天】加密技术作为网络安全的核心组成部分,对于保护数据安全、维护网络秩序具有重要意义。随着技术的不断进步和应用场景的不断拓展,加密技术将不断迎来新的挑战和机遇。未来,我们需要继续关注加密技术的发展动态,加强技术研发和应用创新,为构建更加安全、可信的网络环境贡献力量。同时,我们也需要加强相关法律法规的制定和执行力度,确保加密技术的合法合规使用,为数字经济的健康发展提供有力保障。
1107 1
|
供应链 项目管理
项目管理的十大领域是什么?详解
详解项目管理十大领域,整合管理、范围管理、时间管理、成本管理、质量管理、资源管理、沟通管理、风险管理、采购管理和干系人管理。
576 1
项目管理的十大领域是什么?详解