一、大模型分布式推理工作流
在所有AI大模型使用,从训练到推理环境数据 data pipeline,在大语言模型当中,已经了解随着不同模型迭代和快速数据集爆发和增长,在数据处理过程当中会遇到一系列挑战。譬如分布式推理过程当中,整IO处理workflow会将所有大语言模型,做关键数据处理,如大模型切片处理,会通过并发多个并行算力节点,是 CPU和gpu计算节点,往往计算节点会通过多个实例上千并发,进行加载。有 CPU或是CPU实例,加载同样计算模型模型文件会需要秒级或分钟级快速把数据做变形处理,当多个计算推理服务器,在得到并行预算处理,也会做共享,如何能够把多个节点数据模型节点做汇总分发,如何能够更好把数据在运算和部署资源过程当中,做好资源协同,在推理过程中需要关注。
二、大模型分布式IO分析
了解相关架构图。即IO pattern,对于在数据存储和数据运算一系列需求。在推理和训练过程,不同在于是多个文件做并行分发处理。一般数据流通过大规模推理节点,是摆到千级别运算规模,数据在运行过程当中是大块顺序读。对于数据读,在做优化推理效果和效率过程当中,需要关注如何能够把顺序读大块读pattern数据瓶颈,能够移除他系列瓶颈,往往在推理还会遇到如超大规模文件,或是多个并行过程当中,梳理数据,处理IO模型过程当中,如何能够重复读热点,或是更大数据块热点,做缓存类型加速。以及分布式缓存类型加速,甚至于运行在计算实例内存资源,或是盘资源,把指定为分布式缓存能力来帮助能够在并发加载模型重复读场景来提升一定性能,这是在IO分析过程中能看到如何把局部热点问题解更好解决。
三、大模型分布式推理场景存储需求
大语言模型推理诉求总结为两个方面。首先强调在多播并发场景情况下,多变法场景,一方面是多个并发节点部署规模是比较大,对于大规模集团,如现在云溪大会发布大语言模型,内部集团使用通义集团,规模节点都是非常大,可能是成百上千节点,在过程当中前后启动间隔,是非常短,需要非常快速把全量模型节点完成并发加载,分布式缓存和p 2p能力很重要。在能力上面是如何解决问题,在模型迭代过程当中,是非常快速。大语言模型会有涉及到成千上万或是上亿模型参数,如何把快速写update或是模型迭代,把快速分发给最终节点。
除了在分布式节点加载模型之外,再单击吞吐上能力,是要有一定存储,对存储诉求也要一定提升,如现在来讲单路数据应用程序就读方式需要,大规模用户至少是要在3GB以上,大GB吞吐是非常有必要,也可以通过一系列缓存来做性能提升。
四、面向推理基础存储服务
面向整个推理场景,提供了存储服务。可以是分为两个方面,一方面是针对于大规模高并发并发加载,提升推理性能,可以使用文件存储nas,在加持相应缓存文件,客户分布式缓存和p 2 p能力,更好提供高存储和延时大模型高频发场景。对于小模型加速缓存池,对于OSS加速器,也能够非常好满足用户在场景提升,尤其是缓存加速器,无论是在是满足水平扩展和缓存多种预读模式非常灵活,缓存模式是体现了非常良好特性。
五、高并发场景与分发加载
分成两个小章节,基于两种解决方案来看一下NAS和OSS加速器并发与加载。
1.弹性文件客户端ec为大模型提供读缓存加速
首先为高并发加载和分发场景文件存储nas一系列能力。分享在NAS整个面向多个应用节点推理场景,他加速读缓存场景。总结即在分布式缓存能力,在NAS场景,EFC是计算多个端东西向计算缓存,分布式计算节点更容易满足在推理场景当中多个并发节点加载同一模型,全部都做模型大规模分发,是非常通用,适用于在推理场景解决方案。
分享使用NAS传统意义上通用场景,如在大模型使用平台PAI集成了文件存储,nas在并行推理解决方案能力,也有些用户在云原生能力在用函数计算,是如何在非常高弹性并发场景下,就使用NAS,都是在整个计算端上面,也可以满足用户在自建推理服务,如未来也会发布用户是在阿里云计算平台,可以自建,通过购买ECS实例,可以做进一步内存加速,都是NAS未来在整个自建场景和阿里云推理平台上面进一步集成,总结来在缓存P2P是模型高并发分发,可以表现出来更灵活扩展,另外针对模型文件可以完成秒级加载能力,所有文件数据,在推理大规模并发也会涉及到海量数据并发数据推理,也可以进一步有相对于更好生命周期管理分层。譬如低频归档,数据也可以可能更好降低模型持有化成本,另外在推理场景当中,NAS文件存储具备原生posix语义,对于科学家,不需要改模型框架,原生语义支持就可以非常好满足用户或是developer,在推理场景上面一系列coding和开发。
2.AI推理服务水平扩展
了解在NAS分布式缓存一系列benchmark,排练NAS里分布式缓存,高并发加载和分发里面示意图,再来看一下在场景中benchmark和最佳实践。前面多个计算节点,有n个大量计算节点并发,采用分布式计算缓存,在右边图里面多个cash计算进计算测缓存,可以把打通,东西项多个计算节点分布式缓存能力,无论是后端使用文件存储类型,如文件存储最高性能型NAS,把打20GB吞吐,当做多个并发,实际上有了计算分布式缓存,并发就在计算真正性能,就不用受限于原有性能吞吐上限,不需要用更高容量堆叠,而是可能在分布式缓存场景构建下,可在原来规模更好节约成本。
3.弹性文件客户端EFC缓存为大模型推理服务加速
举例。首先当在采用单击并发节点,以大于模型假设文件大小是500GB性能,采用例子是采用NAS里面最高性能型NAS规格,20GB一系列吞吐,假设当使用500GB模型文件,在没有缓存能力,可读性能为客户端,但是把性能打满,算下来在没有缓存情况下是500秒,就采用缓存加速,目前来看现在至少能够在单客户端 EFC缓存能力,至少可达3GB大b吞吐,相比旧版本有很大性能能力提升,通过这单击缓存,通过加载性能提升之外,可以达到166秒,3.35倍性能提升,在这是166秒,就意味着当采用多个节点并发过程当中。如是100个节点,100个节点是中型推力节点规模,500GB如果再在成本和性能兼容估量考虑,100GB听到需要用户购买100~500GB存储量,示意图当中如何能够把1百个计算节点性能全部发挥,采用之前没有采用分布式缓存P 2 p能力,需要用整个存储能力上限意味着20GB每秒存储。当用新规格要很大,需要更多才能够把20GB能量打满,该情况下能力要2500秒,时间是非常长,当采用分布式缓存和p 2 p能力情况下,可能就不再受限于存储规模,跟之前在采用单个节点缓存加载能力性能体验是一致,166秒。举例,在多并发场景里面,可以非常好不受限于存储能力限制,做多节点缓存能力并发,无论是性能和成本上可以提升至少14倍。
4.使用NAS集成模型在线服务PAI-EAS推理平台
了解最大规模用户使用推理平台NAS场景里面如何加速他性能体验最佳实践。分析用户在使用推理场景模型,在使用NAS有非常广泛用户群体,以他最大规模大客户模型场景为例,在是讲是400级别模型大小文件,并发拉起是要百个多个实例是到拉起,用户他是分钟级别要并行多个gpu,或是CPU,他访问推理并发拉起时,候是要分钟或是秒级就拉起所有模型性能,当客户端吞吐,需要3GB能力。
客户再使用多节点多个应用做并行推理加速过程当中,他也会有会有临时诉求,如原完整400,要把切成200GB,或模型再读取,一方面在分布式缓存能力本身来讲,在多个并发技术架构下,也会把数据做均匀尺度数据分发切片来避免数据热点,可以让所有计算节点缓存性能,能够加速分布式分发能力,往往在开发中小客户小模型跟场景,能够很好支持,如针对十几GB几十台节点规模,部署,可以达到分钟级别搭载,架构在使用PAI模型文件,用户可以通过一键部署PAi,后端就使用NAS,可以很好通过分布式域区能力来达到他吞吐能力最大化。
5.使用NAS基于函数计算+TENSORFLOW的Serverless AI推理
云原生场景,用户使用函数计算来做模型推理服务,请求也是在瞬时几百上千规模来做瞬时读取,在NAS里面会执行NAS里面会存取函数,计算推理平台模型库,第三方模型库,或是模型文件存储。而在云原生场景之外,NAS除了分布式性能能力之外,还有一系列性能,在云原生存储里面,NAS是非常在极致弹性和高性能和可扩展性上也表现出了很好特质,如多个云原生场景函数计算实力,应用力度也非常细,生命周期也非常短,在过程当中如何能够在海量高并发实力场景当中,能够快速拉起拉取存储实例,在弹性伸缩过程当中,如何能够很好做进一步急速挂载和卸载,这本身文件存储nas在云原生应用里面非常重要特性,结合在推理场景里面高并发系列分发和函数计算容器存储方面特质,使用nas基于函数计算在做test flowservice, AI推理也有非常广泛用户使用案例。
六、小模型加速缓存池
1.OSS加速器,为模型加载重复读提供低延迟高吞吐
OSS能力上广泛提升,OSS加速器在推理场景,整体小模型加速缓存时,具有针对于在重复读,重复加载读场景当中非常优秀方面能力。基于所有数据湖,通过构建基础,通过选存介质给oss加速器能力,构建小模型缓存池可以达到个位数毫秒,OSS访问协议往往是是通过像oss connector以及其它接口,通过接口访问可以针对于只读缓存加速里面,OSS加速器在推理场景是用户非常青睐选择,在于并行规模扩展性上和极致性能体验性上也非常强大,通过多个并发节点,可以达到100GB并发吞吐规模,延时能力也非常强有多种缓存机制,当跟oss构建海量数据在训练推理多个data pipeline能够获取到OSS缓存时过程当中,加速器和OSA之间流动和数据流转,这是非常多种类型缓存机制,load淘汰机制可以是非常丰富和非常灵活。
2.SeaArt使用OSS加速器搭建Stable Diffusion推理平台
了解典型案例。再使用OSS加速器搭建推理平台,用户在人工智能做智能绘画典型用户,oss能够存取他海量数据存取,加速器可以很好把热点模型数据做进一步加速,可以达到内存类型缓存可以达到个位数毫秒延时能力,用户也反映在使用OSS加速器做小模型推理,非常简单易用,无论是自动淘汰机制,用户只需要很灵活做配置,就可以有非常多缓存机制满足用户在跟数据做交互方式读取。在性能和吞吐表现上对于小模型加载缓存室,对于用户来讲是非常可观,还可以非常好切换互相之间模型,在大规模做这一定规模模型切换,无论是从吞吐和演示这方面能力,用户体验为无感。
3.阿里云存储,与开发者同行加速推动AI推理应用落地
整体分析在推理场景里面,使用包含是稳定存Nas,在高并发场景下,如何做加盟大规模高并发加载并发能力,利用分布式缓存和p2p能力,也有些针对小模型加速缓存池,OSS加速器既能够体现出非常好灵活环境机制,也可以很好满足用户多种多种性能。非常简单,易用方式,更高性能推理存储优化阿里云存储面向所有开发者和用户推理场景至关重要关键生产力。对于水平扩展加速能力,是针对于专门针对于推理场景。做大规模并发Skill out。所有能力能够,是不是被跟随高并发多个节点推力能够很好满足多个skill out场景,里面用户再使用推理场景极致用户体验,再进一步提升模型分发,加载和分发效率提升,阿里云存储能够跟用户一起不断迭代能力把整个AI推理应用进一步加速落地。