面向AI的存储软硬结合实践和创新
内容介绍:
一、面向AI场景的自研存储部件设计及实践
二、面向AI场景的自研存储服务器设计及实践
三、面向AI场景的存储软硬一体解决方案及实践
本次分享的主题是面向AI的存储软硬结合实践和创新,由阿里云智能集团服务器研发高级技术专家袁茂军、王正勇和常存银分享。
分享内容涵盖三大板块:从底层至顶层依次是,针对特定AI场景的自研处理部件设计实践、专为AI设计的高性能自研服务器介绍,以及最顶层的、面向AI应用的存储软硬件一体化解决方案及其实际应用案例。
首先,我们将深入探讨面向AI场景的智能部件设计实践。在这一部分,核心存储部件为阿里云自研的AliFlash——即阿里ASSD。
一、面向AI场景的自研存储部件设计及实践
简单介绍其演进历程。第一代AliFlash V1是基于PCIe 3.0技术和AliFlash。而AliFlash 2.0同样基于PCIe 3.0,但属于较早的3D TLC NAND技术。2020年推出的AliFlash 3.0,在V1的基础上,实现了ACK的大规模部署,并优化了channel。
到了2022年,我们基于PCIe 4.0技术,实现了QLC以及ZNS技术的支持。而在2024年,我们正在研发基于PCIe 5.0的ZNS QLC技术,包括透明压缩以及国产化SSD。对于下一代AliFlash V6,我们也已有了规划,预计将在2026年推出,它主要基于PCIe 6.0技术,并支持CXL 3.0。
针对当前的AI场景,存储的要求主要集中在顺序和随机读方面。因此,我们在AliFlash 3.5和AliFlash V5上,针对性地研发了两款QLC相关的产品,以满足AI业务场景的需求。
接下来,我们重点介绍QLC相关的产品。在AI,尤其是大数据领域备受关注的当下,有一个概念是存储计算芯片的算力以及性能密度。与此类似,在存储芯片领域也有存储密度的概念。目前,存储密度越低,对应的成本就越低。提升存储密度主要有两个途径:一是不断提高NAND的堆叠层数,目前大部分NAND的堆叠层数在200层左右,有的厂家正在向300层推进;二是通过改进存储单元来存储更多比特,从SSC的1比特、MLC、TLC到QLC的4比特。QLC的存储密度越大,盘的容量就能做得越大,成本可以做得越低。在AI的推动下,越来越多的NAND厂商在推出QLC产品,而海外的大数据厂商也逐渐将QLC SSD作为首选存储方案,用于存储大容量高性能数据。
从存储部件的分层来看,QLC SSD的性能和成本介于TLC SSD和HDD之间。从性能上看,QLC SSD略低于TLC SSD,受限于其NAND的参数,但性能远高于HDD。
简单比较QLC和TLC。QLC因为容量密度更大,成本会更低,盘也可以做得更大。但其缺陷在于性能略低于TLC,DWPD(每日全盘写入次数)参数只能做到TLC的大约一半,这影响了其在某些场景上的应用。与HDD相比,QLC的优势明显:首先,可靠性更好,HDD的故障率远高于SSD;其次,性能更高,与机械硬盘相比,QLC SSD的性能有较大优势;再者,功耗更低,整机的TCO(总拥有成本)可以做得更优。然而,影响其大规模部署的主要因素是成本相对较高,大约是HDD的5、6倍。如果成本能降到2、3倍,QLC SSD将有机会大规模替代HDD。
下面简单介绍一下我们正在研发的V3.5 QLC标盘。这款标盘与目前市场上唯一可买到的竞品有所不同,它基于Charge Trap QLC技术,而竞品则基于Floating Gate技术。Charge Trap与Floating Gate的主要区别在于存储电荷的介质不同:Charge Trap使用的是电荷捕获型的绝缘体,而Floating Gate则使用的是导体。这两种材质的差异决定了在制造工艺上,Charge Trap相对更容易实现,队列陈述也更容易对齐,成本可以更好地控制。然而,Charge Trap存在一个缺点,即数据保持能力较弱。因此,在开发过程中,我们需要重点针对这部分进行优化,以确保性能和稳定性。
总的来说,我们的标盘是基于Charge Trap技术的QLC NAND数据中心NVMe QLC SSD,适用于大容量的独立经营场景。通过自研的FW关键技术,我们解决了数据保持问题,使性能基本上与基于Floating Gate QLC的竞品相当。
接下来,我简单介绍一下在研发过程中遇到的挑战以及我们针对性的解决方案。
第一个问题要回到Charge Trap QLC和Floating Gate QLC之间的对比。首先是编程方式的不同,Charge Trap QLC采用了16级编程。数据要完成编程,从NAND上读回,需要经历两次编程。这个过程中,WL(n)和WL(n+1)之间会有若干个string,常用的NAND大概是6个或8个。对于一个16T的string,大概有200道,这就决定了在内部可能需要更大的缓存来存储这部分数据。
第二个区别是16级编程的含义。数据是完整的,在传输过程中会进行两次完整的编程,这就决定了在真正的数据写过程中需要占用更多的底层带宽和互动带宽。为了优化写路径,我们一方面尽量减少对DDR的访问,保证数据传输可以用到更多的DDR带宽;另一方面,因为DLC占了4个配置,所以传输数据量相对于TLC来说增加了33%。在常用的编程过程中,我们无法避免例如算术运算等引起的数据传输问题,因此我们针对性地设计了数据传输方式,可以支持在编程、传输过程中进行插入操作,尽量减少数据传输的延迟。
下一个关键技术是数据保持能力。与Floating Gate相比,Charge Trap的数据保持能力相对较差。右边的图简单演示了NAND的Read Retry分布。横坐标是电压,纵坐标是CL的较数。编程完成后的分布大概是实线图所示,很容易通过DF电压将数据读回。但是经过一段时间后,存在电荷流失的现象,这时如果不用默认电压很难将数据读回,存在较多的翻转。这样就需要用不同的片子电压进行Read Retry,这就会导致延迟和QS(Quality of Service)增加不少。但对于数据中心场景来说,QS和延迟非常重要。
因此,我们针对性地设计了自适应的最佳读电压侦测技术。这项技术可以在长时间运行时,定期进行监测,将最佳的读电压提前识别出来。在后续数据处理时,可以提前设置下去,尽量避免产生Read Retry。这样可以保证三次Read Retry的概率小于二分之一,并且QS可以保持在400微秒以内。
下面简单介绍QLC盘的性能特点。首先,与TLC盘相比,QLC盘并非主流产品,当前市场主流仍为Gen4。在基本性能方面,QLC盘的顺序读频率集中在前端,能够充分利用PCI-E接口的带宽,因此与TLC盘在这一点上相差无几。
得益于当前NAND技术的进步,QLC盘在并发处理方面表现出色,能够充分利用56.43的带宽,甚至能够接近或达到前端带宽的极限,与TLC盘的性能较为接近。
然而,在写性能方面,由于QLC盘的tprog(编程时间)相对较长,其顺序写性能平均位于后端,带宽大约是TLC盘的一半。随机写性能则主要取决于顺序写的后端带宽以及盘上的预留空间(OP)。在预留空间固定的情况下,QLC盘的随机写带宽与顺序写带宽呈现线性关系。需要说明的是,QLC盘的颗粒度排列通常为16K和64K,这是为了进一步降低成本和减少节电容量。因此,在与TLC盘对比随机写性能时,我们采用了64K的随机写数据,结果显示QLC盘的性能大约是TLC盘的一半。
接下来,我们简要对比自研QLC盘与商用FGQLC盘的性能数据。在顺序写方面,自研的Charge Trap QLC盘对DDR带宽的要求更高,但当前控制器的带宽有限,大约九个G,导致顺序写性能只能达到约2.7,略低于竞品。在随机写方面,我们之前提到其决定因素包括顺序写性能和预留空间(OP)。通过针对性地对来料NAND进行筛选,我们保证了相对较多的有效空间,因此自研QLC盘的随机写性能反而优于竞品。
目前,QLC盘的应用仍受到颗粒度限制的影响,通常需要在前端添加缓存。在此基础上,我们也进行了针对性优化,加入缓存后,QLC盘的写入模式会发生变化,主要以大块的顺序写为主,瓶颈在于顺序写性能。我们针对性地对排列的预留空间(OP)进行释放,由于之前对来料进行了筛选,相对于竞品,我们在这一方面有更多的空间进行优化。配合各方面的计划,我们基本上实现了随机性能与竞品的接近。目前,我们的产品已经包括了基于V3.5开发技术和QLC经验优化的版本。在下一代V5控制器上,我们开发了ZNSQLC,主要解决了QLC盘的耐久性问题,其耐久性约为TLC盘的一半。因此,其DWPD每日全盘写入次数目前还达不到企业级TLC盘或企业级CD盘的DRP(耐久等级)要求,大约为1.0。ZNSQLC借助新技术,尽量将数据进行分离,以降低写入负担。
除此之外,针对当前业务场景的优化,我们主要聚焦于两点。首先,我们实现了pSLC与QLC的盘内异构设计。虽然pSLC的容量会缩减为原来的四分之一,但其性能实际上是PLC的十倍。对于相同的存储区域,如果配置为pSLC,其数据写入量大约是QLC的2.5倍。因此,对于写入量较大的数据,我们可以将其配置在pSLC区域使用。这种配置在物理上是隔离的,需要在开卡时进行设定。目前,我们尚无法实现在pSLC和QLC之间随意转换。
其次,我们将一部分介质管理工作移至盘内处理。虽然ZNS的技术管理通常是在后续阶段进行的,但QLC的介质管理工作相较于TLC要复杂得多。这主要是因为QLC为了保证其服务质量(QS),需要定期(如每两周)将所有写过的数据重新搬运一遍。如果将所有的介质管理都放在后端处理,会占用较多的CPU资源,并且会增加处理时间。因此,在盘内有足够算力空间的情况下,我们将这部分工作移至盘内处理,以尽量减少后续的处理时间,并释放CPU算力。
最后,我简要介绍一下AliFlash系列的后续产品及未来规划。最主要的是,我们已经规划到下一代V6产品,其规格将对标业内最高标准,如PCIe 6.0 x4接口、4800MT/s的传输速率,可以支持更多的NAND闪存颗粒,并可以针对性地增加预留空间(OP)。V6产品将支持4000MT/s的DDR5内存,最大容量可达256GB。在技术方面,我们将继续支持现有的业务定制特性,并增加对透明压缩的支持,通过固件和硬件的优化来降低QLC的延迟,以支持近存储计算。此外,我们还将支持QLC NAND、ZNS技术,以及目前备受关注的FDP技术。最后,我们将全力支持国产化NAND闪存颗粒,以打造国产化的SSE(固态存储引擎)解决方案。
二、面向AI场景的自研存储服务器设计及实践
今天,我将重点介绍自研存储服务器的设计与实践,以及磐久高性能服务器的整体硬件设计及其与业务软件的深度融合。首先,磐久高性能存储服务器的研发历程自2020年至今,已历经五代迭代。
2020年,我们推出了第一代全自主知识产权的服务器,该服务器能够支持2x100G无损RDMA技术。
到了2021年,第二代存储服务器横空出世,它不仅能够支持我们自主研发的首款OCSSD,版本号为1.03.54V3,还在2000年的规模上成功上线。与此同时,网络技术也从rocketRDMA升级到了更新的版本。
进入2022年,我们的平台进一步升级,支持了冷热分层存储方式,并能够兼容多种异构存储介质,包括1.04.15版本、TRC、QRC以及HDD等。此外,我们还推出了阿里自研的高性能存储网络solarRDMA,并基于自研的智能网卡1.0,实现了RDMA全协议的卸载。
到了2023年,我们再次突破,发布了自研的阿里AliFlash 3.5以及全自研的TLC ZS。同时,自研网卡也从1.0版本升级到了2.0版本,进一步支持了阿里的倚天平台。
展望2024年,我们的服务器平台将支持自研的分析内存产品——阿里析言,它能为用户带来极致的低延迟体验。此外,网络也将进一步升级,支持2x400G带宽,并兼容我们刚刚提到的自研AliFlash v5、QLC ZNS以及透明压缩盘等先进技术。
以下是磐久高性能服务器整体架构的详细介绍。该架构基于存算分离的设计理念,旨在支撑包括盘古EBS、polo、ODPS以及PAI灵骏在内的各项业务。整个网络架构具备2x200G至400G的吞吐能力,并依托自研的solarRDMA技术和声卡的rockybeyond功能,通过自研网卡实现协议的全阶段卸载。此外,该架构还能根据业务需求进行深度定制,兼容多种组件,如分析内存、TRC、QRC以及自研网卡等。
基于白盒化驱动的设计思路,我们能够与业务进行更深入的定制合作,确保全链路可控,并实现成本最优化。该服务器还支持多种CPU平台,包括X86和倚天平台,并全面兼容PCIe Gen5和DDR5的硬件标准。针对不同业务需求,我们提供了硬件加速能力和通用平台的定制化加速能力,涵盖了压缩、DMA以及EC等卸载功能。
接下来,我将从性能、拓展性和可靠性这三个维度,详细阐述整个服务器的定制能力。
首先是高性能方面,整个平台能够支持定制化的硬件加速逻辑,并且全面兼容非易失性内存(PMEM)。此外,充值服务器具备支持20个盘位SAS/SATA SSD的能力,并全面支持DDR5和PCIe Gen5的IO扩展。
在可靠性方面,平台基于方正架构,提供了灵活的IO接口和模块化扩展能力。单机容量可扩展至1PB,吞吐能力可达1.2TB。同时,支持八个以上的CXL扩展,能够灵活配置SSD资源。
在可靠性实践上,整个存储服务器已经规模上线,并稳定支撑了阿里云的各项业务。服务器的硬件设计支持PCIe AER(高级错误报告)以及各种故障上报和隔离机制。此外,还支持MPAM(内存性能调优管理器)cache以及内存的QoS(服务质量)管理,并配备了各种硬件安全模块和防护能力。
通过高性能服务器的软硬件结合以及与业务的深度定制,每一代存储服务器产品都能够助力业务吞吐能力提升50%以上,同时降低业务延迟15%以上。随着硬件的不断迭代,总拥有成本(TCO)也有望降低20%。
下面是单机存储引擎与业务深度结合的详细说明。
在建设层面,空间管理、云数据管理、池化管理以及数据回收机制均能够支持多种存储介质,包括但不限于非易失性内存(PMEM)、TLC和QLC等。
在高性能层面,通过内部集成的CacheT20调度机制,根据业务数据的访问模式,实现了数据的冷热分离、数据聚合以及优先级调度。这一机制能够帮助业务实现分层和分时的调度能力,从而优化性能。同时,我们会根据不同业务的需求和不同平台的能力,提供异构协作和通用平台的加速逻辑。例如,针对polo和盘古EBS等业务,我们会提供定制化的接口以满足其特定需求。因此,在成本方面,这些优化能够进一步降低盘存储成本,提高用户的可用空间。
在寿命层面,通过实施battleACD的优化措施,可以降低用户的写放大现象,从而进一步延长用户存储设备的使用寿命。
在性能层面,由于整个T20架构采用了自研的阿里CM分析师内存,因此能够为用户提供更低的延迟表现。
以下是关于多形态ZNS技术的详细介绍。
自2020年发布第一代globalchannel的ACD以来,我们的IOSAD技术一直在不断演进。这包括了TLC ZNS、pSLC ZNS,直至最新的QLC ZNS。对于pSLC ZNS,其pcircle相较于TRC有了三倍的提升,因此整个写入量能够显著提高。同时,我们基于pSLC ZNS开发了一个面板级的文件系统,使用户能够无缝地使用pSLC ZNS介质,而无需关心其内部逻辑。
此外,TLC ZNS能够进一步降低用户的落地空间需求。我们还开发了一个名为“MassiveStream”的功能,允许用户同时使用超过1000个数据流,使得用户的读写比接近1:1,同时进一步降低了写放大WA现象。
如前所述,即将推出的v5版本将采用QRCCS技术,通过介质的迭代,进一步降低用户的总拥有成本(TCO)。通过专用的驱动程序,QLC ZNS可以按照4K的粒度进行使用,同时无缝兼容TLC的使用方式。
我们还采用了dreamlist技术,将FTL(闪存转换层)表存储在PSLC任务中,从而进一步减少了用户盘中的内存占用,进而降低了整体TCO。
以下介绍的是整个交付流程中的仿真平台,该平台融合了硬件能力的数字化,并深入探索了软硬件结合的方向。首先,它基于业务进行了详细的内存画像、CPU画像以及IO画像分析,以揭示在不同业务场景下软硬件资源的瓶颈及优化策略。
同时,该仿真平台还具备存储软件和硬件资源的仿真能力。在软件层面,它能够模拟线程模型、缓存带宽、访问模式以及网络放大等;在硬件层面,则能仿真CPU内存、网卡以及CPU内存的使用情况。通过这些仿真,我们能够更深入地探索下一代平台的特性与需求。
此外,该平台还会根据业务的访问模式进行封存与访问测试。这样做的目的是在硬件正式交付给业务使用之前,能够预先发现硬件的瓶颈所在,从而进一步提高服务器的交付效率,并加速硬件的迭代速度。
以下是磐久高性能服务器在AI场景中将探索的几个方向的重述:
磐久高性能服务器在AI场景中计划进行多方面的探索。首先,我们着眼于硬件智能卸载。未来,我们计划将AI训练场景中与GPU无关、但依赖CPU的计算任务进一步卸载到存储服务器中,以此释放GPU的更多效能。这包括当前AI中的KBcache以及我们之前探索过的CBD场景,其中的许多逻辑更适合在存储端执行,而非GPU端。
其次,关于互联方面,我们考虑DPU的融合加速与高速互联。在DPU的加速策略上,我们将依托智能网卡,计划将音视频解码、集合通讯、数据压缩、加解密以及安全隔离等功能卸载到智能网卡中。
同时,我们也基于CXL互联技术,期望能够持续化存储资源,这包括内存、分析内存以及SAS/SATA SSD的能力。
此外,我们还将进一步探索如何为AI提供更高性价比的解决方案,这包括提供更大的存储容量、更高的吞吐能力,以及实现低延时、低成本的解决方案。
三、面向AI场景的存储软硬一体解决方案及实践
这一部分是从整体解决方案的角度出发,探讨AI链路上的解决思路以及对未来产品和技术方向的探索。
近年来,cacheBE的兴起极大地推动了AI产业链的发展。存储系统作为数据供给和可靠性保障的基础服务,在其中扮演着至关重要的角色。然而,与传统存储行业对存储的需求相比,AI链路更为复杂且漫长。在不同阶段,AI对存储系统在带宽、AOPS以及延时上的需求各不相同。因此,需要端到端完整的解决方案来满足不同阶段的需求,从而提升整体效率。
首先,从AI业务场景的数据特征出发,我们可以将整个链路分为不同的阶段,并分析每个阶段对存储服务器设计上的需求。第一个阶段是数据采集与预处理阶段。这一阶段的数据来源广泛,包括第三方采集、网络采集、现场数据采集等,产生的原始数据量庞大。对于业务而言,核心诉求是降低数据持有成本并提升效率。因此,在设计上更倾向于采用高密度的HDD存储机型来满足这一需求。同时,这一阶段还包括数据预处理的步骤,涉及数据检索和混合IO操作,对于这类场景,会辅助采用高性能的NVMe SSD服务器设计区域来满足性能上的需求。
下一个阶段是训练及模型验证阶段。这一阶段的数据主要包括收集的数据以及在训练过程中产生的数据存储和动作。对于业务来说,核心诉求是性能,包括读写的带宽、读取的IOPS(每秒输入输出操作次数)以及对原始数据的处理速度。基于这些考虑,在服务器设计方面,更多地采用高性能的SSD以及高性能的RDMA网络支撑的存储服务器来满足对性能上的需求。
在模型推理阶段,业务的核心诉求在于希望将训练完成的模型数据能够迅速部署并上线,以产生实际业务效果。这一过程是反复且高频发生的,并且伴随着对热点数据的高能访问。因此,从服务器设计的角度来看,我们需要结合推理的规模来确定所需的带宽,并据此选择适合的存储介质。在这一阶段,从服务器的角度考虑,可能会选择基于SCM的高性能存储来满足需求。同时,从性价比的角度出发,也可能会选择基于SSD和HDD的异构存储服务器来提供相应的服务。
最后,在数据生命周期管理的阶段,随着数据访问热度的逐渐降低,我们希望将低频数据尽快自动迁移到低成本的存储介质上。因此,在这个阶段,从服务器设计的角度来看,更多地是采用高密度的HDD存储结合高密度的机型设计,以提供整个数据持有过程中的成本优势。
接下来,从存储介质分层以及AI场景的应用角度来看,展现出以下几个显著特征。首先,从带宽和延迟的角度观察,存储介质距离GPU越近,所提供的带宽越高,延迟越低。例如,GPU内部的SRAM、HBM,以及CPU侧的DRAM,它们通常能提供数十纳秒至数百纳秒的延迟,同时具备数十TB的带宽能力。然而,这些介质的成本相对较高,容量则相对较小。但对于实时在线的训练和推理业务而言,这样的配置是不可或缺的。
针对训练业务,数据主要包括高速加载的收集数据以及高速存储和加载的21.36数据。对于存储系统而言,这一阶段不仅要求数据持久化和可靠性,还要求数据的加载和存放更加高效,以提升GPU的利用率。因此,在这个阶段,存储介质的选型更多地倾向于具有持久化特性且高性能的存储介质,如PMEM(持久内存)和CMRSSD。
在CMRSSD的选型上,根据不同的需求,可以分为不同的类型。从业务的快速部署角度出发,通常会选择通用的基于TLC(三层单元)介质的SSD,以达到快速部署的目标。同时,我们也发现通过软硬件结合的方式,可以解决QLC SSD(四层单元SSD)在寿命上的问题,达到与CMRSSD相同的效果。
对于原始数据集以及归档数据而言,它们通常会被存放在以对象存储为核心的系统里。在介质选型上,基本上会选择低成本、高密度的CMR HDD(企业级高密度硬盘)或SMR HDD(叠瓦式磁记录硬盘),并结合我们自身研发的存储引擎,以降低整体数据持有的TCO总拥有成本。
接下来,综合以上分析,在磐久存储服务器的软硬一体化平台设计架构上,我们针对AI业务场景进行了针对性的设计和优化。
首先,从平台支撑角度看,我们针对X86平台和自研倚天双平台架构进行了优化。在成本敏感的业务产品中,如OSS对象存储,我们实现了异构介质的分层管理,覆盖了CMRHDD(企业级高密度硬盘)和SMRHDD(叠瓦式磁记录硬盘),满足了吞吐量和成本指标。同时,我们还在积极探索基于Tape(磁带)的新型存储介质,以提供更低成本的存储解决方案。
在存储引擎方面,我们通过自研的高密度单机存储引擎以及貔貅管理系统,实现了诸如建筑管理、节能管理、拓扑管理等核心技术模块。在敏感业务场景中,如EBS、CPFS,我们通过高性能的单机存储引擎,实现了商业SSD和自研阿里Flash的双层管理。同时,结合我们自身研发的智能网卡和高性能网络协议,满足了AI场景对吞吐带宽和延迟的需求。上层则结合我们自研的飞天盘古分布式系统,整体支撑了大数据计算服务、OSS计算服务、EBS、NAS等多个存储服务。
接下来,我们来看磐久服务器在AI业务场景的分层服务。从底层看,OS对象存储通过磐久的高密存储服务器和OS对象业务的部署,为原始数据和归档数据提供了可靠性保证,并提供了高性价比。在高性能存储部分,磐久朱雀智算存储服务器结合CPFS业务,为数据的收集和加载、保存和加载提供了高效保障。同时,在近计算层部分,我们充分利用本地的DRAM和SSD缓存能力,进一步缓解了写操作的压力,并极大地缓解了推理场景中热数据访问的突发压力。整体而言,在性能部分,单机提供了400G的RDMA网络能力。
从产品角度看,CPFS提供了400MB/s/TiB的带宽。在成本方面,OSS深度冷归档产品提供了低至0.75元/GB/月的竞争力价格。从客户使用便捷角度看,我们打通了CPS和OSS之间的数据流动,通过数据块的切分和文件并发的优化,提供了高带宽的数据能力。目前,单文件导入导出速度已达到5GB/s。在计算缓存部分,我们已充分利用DRAM和本地SSD实现计算侧的分层缓存效果。面向未来,我们将继续针对AI场景进行新的技术研发和探索。
首先从自研存储部件的角度来看,在性能提升方面,我们不断推进自研全球化内存产品的研发。目前的产品已支持CTR2.0接口和TMM存储介质,通过内存级的数据访问方式,提供了低延迟和高带宽的能力。
同时,我们自研的ASDK多平台管理软件库,满足了阿里巴巴各业务场景的定制化需求。
在性价比优化方面,我们也不断推进QLC产品的自研进程。我们推出了业界首款使用Charge Trap NAND介质的产品,并通过固件优化,提供了64K非对齐的支持。为了进一步优化产品寿命和提升性能,我们引入了ZNS KOC模式和PSLC zone的分层架构,并从性能优化角度出发,实施了IO命令优先级调度的策略。
面对不同业务场景对存储功能的多样化需求,我们在自研产品上不断丰富和完善功能。例如,在自研ZNS SSD方面,我们通过固件优化,实现了高并发写操作的保序性,并具备了LBA重写的能力。为了满足客户对更多Open Zone的需求,我们也支持在线Open Zone的功能。对于透明压缩SSD,我们首先支持了国产NAND,同时在点评数据库场景中,实现了最高四倍的压缩率,提升了整体性能。此外,我们还支持逻辑动态扩容,进一步降低成本。在客户使用便捷性方面,我们提供了租户打标、压缩率上报等特性,并支持KPIO按租户加密的能力。
综合以上内容,我们正在探索未来的存储软硬一体解决方案在AI场景下的应用。从底层平台支撑角度看,我们依然会提供基于X86以及自研平台的双平台支撑架构。在存储部件选型方面,结合自研产品的演进,我们会更多地考虑结合自研的PMEM和多种SSD,针对AI场景进行IO感知和相关的优化。
在网络部件选型方面,考虑到未来模型规模的不断扩大,我们会更多地考虑400G甚至更高带宽的网络设备,同时结合计算侧的网络能力,进行东西向和南北向的联合优化和技能调优。在存储系统层面,一方面结合自研部件的演进,我们会更多地考虑新的异构存储介质的管理;另一方面,在AI场景下的部署模式下,我们会结合K8S云原生部署模式,进一步做存储的智能分层、生命周期管理以及虚拟化相关的存储层面优化和改善。