使用云存储构建云上推理平台

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 本文介绍了大模型分布式推理的工作流、IO分析、存储需求及解决方案。通过分布式缓存和P2P能力,优化了大规模并发场景下的模型加载与分发效率,提升了推理性能。NAS文件存储和OSS加速器在高并发读取和小模型缓存中表现出色,支持秒级加载和高效数据处理。阿里云存储为开发者提供了稳定、高效的推理环境,助力AI应用快速落地。

一、大模型分布式推理工作流

在所有AI大模型使用,从训练到推环境数据 data pipeline,在大语言模型当中,已经了解随着不同模型迭代和快速数据集爆发和增长,在数据处理过程当中会遇到一系列挑战譬如分布式推理过程当中,整IO处理workflow会将所有大语言模型,做关键数据处理大模型切片处理,会通过并发多个并行算力节点,是 CPU和gpu计算节点,往往计算节点会通过多个实例上千并发,进行加载。有 CPU是CPU实例,加载同样计算模型模型文件会需要秒级分钟级快速把数据做变形处理,当多个计算推理服务器,在得到并行预算处理,也会做共享,如何能够把多个节点数据模型节点做汇总分发,如何能够更好把数据在运算和部署资源过程当中,做好资源协同,在推理过程中需要关注。

 

二、大模型分布式IO分析

了解相关架构图。即IO pattern,对于在数据存储和数据运算一系列需求在推理和训练过程,不同在于是多个文件做并行分发处理一般数据流通过大规模推理节点,是摆到千级别运算规模,数据在运行过程当中是大块顺序读对于数据读,在做优化推理效果和效率过程当中,需要关注如何能够把顺序读大块读pattern数据瓶颈,能够移除他系列瓶颈,往往在推理还会遇到超大规模文件,是多个并行过程当中,梳理数据,处理IO模型过程当中,如何能够重复读热点,是更大数据块热点,做缓存类型加速以及分布式缓存类型加速,甚至于运行在计算实例内存资源,是盘资源,把指定为分布式缓存能力来帮助能够在并发加载模型重复读场景来提升一定性能,这在IO分析过程中能看到如何把局部热点问题解更好解决。

 

三、大模型分布式推理场景存储需求

大语言模型推理诉求总结为两个方面首先强调在多播并发场景情况下,多变法场景一方面是多个并发节点部署规模是比较大,对于大规模集团,现在云溪大会发布大语言模型,内部集团使用通义集团,规模节点都是非常大,可能是成百上千节点,在过程当中前后启动间隔,是非常短,需要非常快速把全量模型节点完成并发加载,分布式缓存和p 2p能力重要。在能力上面是如何解决问题,在模型迭代过程当中,非常快速大语言模型会有涉及到成千上万是上亿模型参数,如何把快速写update是模型迭代,把快速分发给最终节点


除了在分布式节点加载模型之外,再单击吞吐上能力,要有一定存储,对存储诉求也要一定提升,现在来讲单路数据应用程序就读方式需要,大规模用户至少是要在3GB以上,大GB吞吐是非常有必要,也可以通过一系列缓存来做性能提升

 

四、面向推理基础存储服务

面向整个推理场景,提供了存储服务可以是分为两个方面,一方面是针对于大规模高并发并发加载,提升推理性能,可以使用文件存储nas,在加持相应缓存文件,客户分布式缓存和p 2 p能力,更好提供高存储和延时大模型高频发场景。对于小模型加速缓存池,对于OSS加速器,也能够非常好满足用户在场景提升,尤其是缓存加速器,无论是在是满足水平扩展和缓存多种预读模式非常灵活,缓存模式体现了非常良好特性

 

五、高并发场景与分发加载

分成两个小章节,基于两种解决方案来看一下NAS和OSS加速器并发与加载。


1.弹性文件客户端ec为大模型提供读缓存加速

首先为高并发加载和分发场景文件存储nas一系列能力分享NAS整个面向多个应用节点推理场景,他加速读缓存场景总结在分布式缓存能力,在NAS场景,EFC是计算多个端东西向计算缓存,分布式计算节点更容易满足在推理场景当中多个并发节点加载同模型,全部都做模型大规模分发,是非常通用,适用于在推理场景解决方案


分享使用NAS传统意义上通用场景,在大模型使用平台PAI集成了文件存储,nas在并行推理解决方案能力,也有些用户在云原生能力在用函数计算,是如何在非常高弹性并发场景下,就使用NAS,都是在整个计算端上面,也可以满足用户在自建推理服务,未来也会发布用户是在阿里云计算平台,可以自建,通过购买ECS实例,可以做进一步内存加速,都是NAS未来在整个自建场景和阿里云推理平台上面进一步集成,总结来在缓存P2P是模型高并发分发,可以表现出来更灵活扩展,另外针对模型文件可以完成秒级加载能力,所有文件数据,在推理大规模并发也会涉及到海量数据并发数据推理,也可以进一步有相对于更好生命周期管理分层譬如低频归档,数据也可以可能更好降低模型持有化成本,另外在推理场景当中,NAS文件存储具备原生posix语义,对于科学家,不需要改模型框架,原生语义支持就可以非常好满足用户是developer,在推理场景上面一系列coding和开发


2.AI推理服务水平扩展

了解NAS分布式缓存一系列benchmark,排练NAS里分布式缓存,高并发加载和分发里面示意图,再来看一下在场景中benchmark和最佳实践。前面多个计算节点,有n个大量计算节点并发,采用分布式计算缓存,在右边图里面多个cash计算进计算测缓存,可以把打通,东西项多个计算节点分布式缓存能力,无论是后端使用文件存储类型,文件存储最高性能型NAS,把打20GB吞吐,当做多个并发,实际上有了计算分布式缓存,并发就在计算真正性能,就不用受限于原有性能吞吐上限,不需要用更高容量堆叠,而是可能在分布式缓存场景构建下,在原来规模更好节约成本


3.弹性文件客户端EFC缓存为大模型推理服务加速

举例。首先当在采用单击并发节点,以大于模型假设文件大小是500GB性能,采用例子是采用NAS里面最高性能型NAS规格,20GB一系列吞吐,假设当使用500GB模型文件,在没有缓存能力,可读性能为客户端,但是把性能打满,算下来在没有缓存情况下是500秒,就采用缓存加速,目前来看现在至少能够在单客户端 EFC缓存能力,至少可3GB大b吞吐,相比旧版本有很大性能能力提升通过这单击缓存通过加载性能提升之外,可以达到166秒,3.35倍性能提升,在这是166秒,就意味着当采用多个节点并发过程当中。是100个节点,100个节点是中型推力节点规模,500GB如果再在成本和性能兼容估量考虑,100GB听到需要用户购买100~500GB存储量,示意图当中如何能够把1百个计算节点性能全部发挥,采用之前没有采用分布式缓存P 2 p能力需要用整个存储能力上限意味着20GB每秒存储用新规格要很大,需要更多才能够把20GB能量打满,情况下能力要2500秒,时间是非常长,当采用分布式缓存和p 2 p能力情况下,可能就不再受限于存储规模,跟之前在采用单个节点缓存加载能力性能体验是一致,166秒举例,在多并发场景里面,可以非常好不受限于存储能力限制,做多节点缓存能力并发,无论是性能和成本上可以提升至少14倍。


4.使用NAS集成模型在线服务PAI-EAS推理平台

了解最大规模用户使用推理平台NAS场景里面如何加速他性能体验最佳实践分析用户在使用推理场景模型在使用NAS有非常广泛用户群体,以他最大规模大客户模型场景为例,在是讲是400级别模型大小文件,并发拉起是要百个多个实例是到拉起,用户他是分钟级别要并行多个gpu,是CPU,他访问推理并发拉起时,候是要分钟是秒级就拉起所有模型性能,当客户端吞吐,需要3GB能力


客户再使用多节点多个应用做并行推理加速过程当中,他也会有会有临时诉求,原完整400,要把切成200GB,模型再读取,一方面在分布式缓存能力本身来讲,在多个并发技术架构下,也会把数据做均匀尺度数据分发切片来避免数据热点,可以让所有计算节点缓存性能,能够加速分布式分发能力,往往在开发中小客户小模型跟场景,能够很好支持,针对十几GB几十台节点规模,部署可以达到分钟级别搭载,架构在使用PAI模型文件,用户可以通过一键部署PAi,后端就使用NAS,可以很好通过分布式域区能力来达到他吞吐能力最大化


5.使用NAS基于函数计算+TENSORFLOW的Serverless AI推理

云原生场景,用户使用函数计算来做模型推理服务,请求也是在瞬时几百上千规模来做瞬时读取,在NAS里面会执行NAS里面会存取函数,计算推理平台模型库第三方模型库,是模型文件存储。而在云原生场景之外,NAS除了分布式性能能力之外,还有一系列性能,在云原生存储里面,NAS是非常在极致弹性和高性能和可扩展性上也表现出了很好特质,多个云原生场景函数计算实力,应用力度也非常细,生命周期也非常短,在过程当中如何能够在海量高并发实力场景当中,能够快速拉起拉取存储实例,在弹性伸缩过程当中,如何能够很好做进一步急速挂载和卸载,这本身文件存储nas在云原生应用里面非常重要特性,结合在推理场景里面高并发系列分发和函数计算容器存储方面特质,使用nas基于函数计算在做test flowservice, AI推理也有非常广泛用户使用案例

 

六、小模型加速缓存池

1.OSS加速器,为模型加载重复读提供低延迟高吞吐

OSS能力上广泛提升,OSS加速器在推理场景,整体小模型加速缓存时,具有针对于在重复读,重复加载读场景当中非常优秀方面能力基于所有数据湖,通过构建基础,通过选存介质给oss加速器能力,构建小模型缓存池可以达到个位数毫秒,OSS访问协议往往是是通过像oss connector以及其它接口,通过接口访问可以针对于只读缓存加速里面,OSS加速器在推理场景用户非常青睐选择,在于并行规模扩展性上和极致性能体验性上也非常强大,通过多个并发节点,可以达到100GB并发吞吐规模,延时能力也非常强有多种缓存机制,当跟oss构建海量数据在训练推理多个data pipeline能够获取到OSS缓存时过程当中,加速器和OSA之间流动和数据流转,这是非常多种类型缓存机制,load淘汰机制可以是非常丰富和非常灵活


2.SeaArt使用OSS加速器搭建Stable Diffusion推理平台

了解典型案例。再使用OSS加速器搭建推理平台,用户在人工智能做智能绘画典型用户,oss能够存取他海量数据存取,加速器可以很好把热点模型数据做进一步加速,可以达到内存类型缓存可以达到个位数毫秒延时能力,用户也反映在使用OSS加速器做小模型推理,非常简单易用,无论是自动淘汰机制,用户只需要灵活做配置,就可以有非常多缓存机制满足用户在跟数据做交互方式读取在性能和吞吐表现上对于小模型加载缓存室,对于用户来讲非常可观,还可以非常好切换互相之间模型,在大规模做这一定规模模型切换,无论是从吞吐和演示这方面能力,用户体验无感。


3.阿里云存储,与开发者同行加速推动AI推理应用落地

整体分析在推理场景里面,使用包含是稳定存Nas,在高并发场景下,如何做加盟大规模高并发加载发能力,利用分布式缓存和p2p能力,也有些针对小模型加速缓存池,OSS加速器既能够体现出非常好灵活环境机制,也可以很好满足用户多种多种性能。非常简单,易用方式,更高性能推理存储优化阿里云存储面向所有开发者和用户推理场景至关重要关键生产力。对于水平扩展加速能力,针对于专门针对于推理场景。做大规模并发Skill out。所有能力能够,是不是被跟随高并发多个节点推力能够很好满足多个skill out场景,里面用户再使用推理场景极致用户体验,再进一步提升模型分发,加载和分发效率提升阿里云存储能够跟用户一起不断迭代能力把整个AI推理应用进一步加速落地

相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
8月前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
347 3
|
4月前
|
存储 缓存 人工智能
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
|
8月前
|
存储 安全 大数据
阿里云存储:优缺点深度剖析
阿里云存储是国内领先的云存储服务,具备高效稳定、弹性可扩展、安全可靠及丰富的产品线等优点,适用于各种规模的企业。其分布式架构支持高并发和大数据处理,提供多层次的安全防护和灵活的存储方案。然而,成本较高、数据安全风险和网络连接稳定性等问题也需关注。用户应根据需求权衡利弊,选择合适的存储方案。
923 74
|
9月前
|
存储 固态存储 文件存储
并行文件存储在大模型训练中的探索与实践
阿里云智能集团存储产品专家何邦剑分享了并行文件存储CPFS在大模型训练中的应用。CPFS针对大模型训练的IO特点,优化性能、降低成本、提升用户体验。它支持多计算平台共享访问,具备数据分层存储、生命周期管理、缓存加速等特性,实现高效的数据处理与管理,显著提升训练效率和资源利用率。尤其在大规模集群中,CPFS提供了高吞吐、低延迟及灵活扩展的能力,助力客户如零一万物实现高性能训练。
|
8月前
|
存储 缓存 人工智能
深度解析CPFS 在 LLM 场景下的高性能存储技术
本文深入探讨了CPFS在大语言模型(LLM)训练中的端到端性能优化策略,涵盖计算端缓存加速、智能网卡加速、数据并行访问及数据流优化等方面。重点分析了大模型对存储系统的挑战,包括计算规模扩大、算力多样性及数据集增长带来的压力。通过分布式P2P读缓存、IO加速、高性能存算通路技术以及智能数据管理等手段,显著提升了存储系统的吞吐量和响应速度,有效提高了GPU利用率,降低了延迟,从而加速了大模型的训练进程。总结了CPFS在AI训练场景中的创新与优化实践,为未来大模型发展提供了有力支持。
|
7月前
|
文字识别 Serverless 开发工具
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
811 5
|
6月前
|
存储 缓存 人工智能
阿里云Tair KVCache:打造以缓存为中心的大模型Token超级工厂
Tair KVCache 是阿里云推出的面向大语言模型推理场景的缓存加速服务,基于分布式内存池化和分级缓存体系,解决显存墙与带宽瓶颈问题。为万亿参数模型的高效推理提供技术保障,推动 AI 算力进化与规模化应用。
|
6月前
|
存储 人工智能 安全
一文总览阿里云存储产品年度升级!
阿里云在“回顾·向新:AI浪潮下的数据存储进化”活动上,总结了过去一年在AI领域的存储研究成果,提出“AI领域”与“高可用底层架构”双轨策略。会上推出的CPFS智算版,针对模型训练场景全链路性能升级,提供20TB级吞吐和3亿IOPS性能,助力大模型高效训练。同时,OSS端到端链路升级支持构建超2万数据湖,性能显著提升。此外,阿里云强化存储安全与高可用性,推出多种灾备方案,满足企业多样化需求。通过赋能月之暗面、小鹏汽车、小红书等案例,阿里云持续领跑AI时代,助力企业智能化转型。
375 27
|
存储 人工智能 安全
CPFS深度解析:并行文件存储加速AI创新
在生成式AI的大潮中,并行文件系统作为高性能数据底座,为AI算力提供高吞吐、低延迟的数据存储服务。在本话题中,我们将介绍阿里云并行文件存储CPFS针对AI智算场景而提供的产品能力演进与更新,深入讲解在性能、成本、稳定、安全等方面的技术创新。
886 0
|
6月前
|
存储 消息中间件 运维
AutoMQ x OSS 的 Iceberg 数据入湖的最佳实践
本文将从三个维度展开论述:首先分析 Iceberg 的技术优势及其成为行业标准的原因,其次详细阐述数据入湖的最佳实践方法,最后重点介绍 AutoMQ 如何利用阿里云 OSS 高效解决 Kafka 数据入湖问题。通过 AutoMQ 和阿里云服务的结合,用户可以轻松实现 Kafka 数据入湖的最佳实践。
455 15