使用云存储构建云上推理平台

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: 本文介绍了大模型分布式推理的工作流、IO分析、存储需求及解决方案。通过分布式缓存和P2P能力,优化了大规模并发场景下的模型加载与分发效率,提升了推理性能。NAS文件存储和OSS加速器在高并发读取和小模型缓存中表现出色,支持秒级加载和高效数据处理。阿里云存储为开发者提供了稳定、高效的推理环境,助力AI应用快速落地。

一、大模型分布式推理工作流

在所有AI大模型使用,从训练到推环境数据 data pipeline,在大语言模型当中,已经了解随着不同模型迭代和快速数据集爆发和增长,在数据处理过程当中会遇到一系列挑战譬如分布式推理过程当中,整IO处理workflow会将所有大语言模型,做关键数据处理大模型切片处理,会通过并发多个并行算力节点,是 CPU和gpu计算节点,往往计算节点会通过多个实例上千并发,进行加载。有 CPU是CPU实例,加载同样计算模型模型文件会需要秒级分钟级快速把数据做变形处理,当多个计算推理服务器,在得到并行预算处理,也会做共享,如何能够把多个节点数据模型节点做汇总分发,如何能够更好把数据在运算和部署资源过程当中,做好资源协同,在推理过程中需要关注。

 

二、大模型分布式IO分析

了解相关架构图。即IO pattern,对于在数据存储和数据运算一系列需求在推理和训练过程,不同在于是多个文件做并行分发处理一般数据流通过大规模推理节点,是摆到千级别运算规模,数据在运行过程当中是大块顺序读对于数据读,在做优化推理效果和效率过程当中,需要关注如何能够把顺序读大块读pattern数据瓶颈,能够移除他系列瓶颈,往往在推理还会遇到超大规模文件,是多个并行过程当中,梳理数据,处理IO模型过程当中,如何能够重复读热点,是更大数据块热点,做缓存类型加速以及分布式缓存类型加速,甚至于运行在计算实例内存资源,是盘资源,把指定为分布式缓存能力来帮助能够在并发加载模型重复读场景来提升一定性能,这在IO分析过程中能看到如何把局部热点问题解更好解决。

 

三、大模型分布式推理场景存储需求

大语言模型推理诉求总结为两个方面首先强调在多播并发场景情况下,多变法场景一方面是多个并发节点部署规模是比较大,对于大规模集团,现在云溪大会发布大语言模型,内部集团使用通义集团,规模节点都是非常大,可能是成百上千节点,在过程当中前后启动间隔,是非常短,需要非常快速把全量模型节点完成并发加载,分布式缓存和p 2p能力重要。在能力上面是如何解决问题,在模型迭代过程当中,非常快速大语言模型会有涉及到成千上万是上亿模型参数,如何把快速写update是模型迭代,把快速分发给最终节点


除了在分布式节点加载模型之外,再单击吞吐上能力,要有一定存储,对存储诉求也要一定提升,现在来讲单路数据应用程序就读方式需要,大规模用户至少是要在3GB以上,大GB吞吐是非常有必要,也可以通过一系列缓存来做性能提升

 

四、面向推理基础存储服务

面向整个推理场景,提供了存储服务可以是分为两个方面,一方面是针对于大规模高并发并发加载,提升推理性能,可以使用文件存储nas,在加持相应缓存文件,客户分布式缓存和p 2 p能力,更好提供高存储和延时大模型高频发场景。对于小模型加速缓存池,对于OSS加速器,也能够非常好满足用户在场景提升,尤其是缓存加速器,无论是在是满足水平扩展和缓存多种预读模式非常灵活,缓存模式体现了非常良好特性

 

五、高并发场景与分发加载

分成两个小章节,基于两种解决方案来看一下NAS和OSS加速器并发与加载。


1.弹性文件客户端ec为大模型提供读缓存加速

首先为高并发加载和分发场景文件存储nas一系列能力分享NAS整个面向多个应用节点推理场景,他加速读缓存场景总结在分布式缓存能力,在NAS场景,EFC是计算多个端东西向计算缓存,分布式计算节点更容易满足在推理场景当中多个并发节点加载同模型,全部都做模型大规模分发,是非常通用,适用于在推理场景解决方案


分享使用NAS传统意义上通用场景,在大模型使用平台PAI集成了文件存储,nas在并行推理解决方案能力,也有些用户在云原生能力在用函数计算,是如何在非常高弹性并发场景下,就使用NAS,都是在整个计算端上面,也可以满足用户在自建推理服务,未来也会发布用户是在阿里云计算平台,可以自建,通过购买ECS实例,可以做进一步内存加速,都是NAS未来在整个自建场景和阿里云推理平台上面进一步集成,总结来在缓存P2P是模型高并发分发,可以表现出来更灵活扩展,另外针对模型文件可以完成秒级加载能力,所有文件数据,在推理大规模并发也会涉及到海量数据并发数据推理,也可以进一步有相对于更好生命周期管理分层譬如低频归档,数据也可以可能更好降低模型持有化成本,另外在推理场景当中,NAS文件存储具备原生posix语义,对于科学家,不需要改模型框架,原生语义支持就可以非常好满足用户是developer,在推理场景上面一系列coding和开发


2.AI推理服务水平扩展

了解NAS分布式缓存一系列benchmark,排练NAS里分布式缓存,高并发加载和分发里面示意图,再来看一下在场景中benchmark和最佳实践。前面多个计算节点,有n个大量计算节点并发,采用分布式计算缓存,在右边图里面多个cash计算进计算测缓存,可以把打通,东西项多个计算节点分布式缓存能力,无论是后端使用文件存储类型,文件存储最高性能型NAS,把打20GB吞吐,当做多个并发,实际上有了计算分布式缓存,并发就在计算真正性能,就不用受限于原有性能吞吐上限,不需要用更高容量堆叠,而是可能在分布式缓存场景构建下,在原来规模更好节约成本


3.弹性文件客户端EFC缓存为大模型推理服务加速

举例。首先当在采用单击并发节点,以大于模型假设文件大小是500GB性能,采用例子是采用NAS里面最高性能型NAS规格,20GB一系列吞吐,假设当使用500GB模型文件,在没有缓存能力,可读性能为客户端,但是把性能打满,算下来在没有缓存情况下是500秒,就采用缓存加速,目前来看现在至少能够在单客户端 EFC缓存能力,至少可3GB大b吞吐,相比旧版本有很大性能能力提升通过这单击缓存通过加载性能提升之外,可以达到166秒,3.35倍性能提升,在这是166秒,就意味着当采用多个节点并发过程当中。是100个节点,100个节点是中型推力节点规模,500GB如果再在成本和性能兼容估量考虑,100GB听到需要用户购买100~500GB存储量,示意图当中如何能够把1百个计算节点性能全部发挥,采用之前没有采用分布式缓存P 2 p能力需要用整个存储能力上限意味着20GB每秒存储用新规格要很大,需要更多才能够把20GB能量打满,情况下能力要2500秒,时间是非常长,当采用分布式缓存和p 2 p能力情况下,可能就不再受限于存储规模,跟之前在采用单个节点缓存加载能力性能体验是一致,166秒举例,在多并发场景里面,可以非常好不受限于存储能力限制,做多节点缓存能力并发,无论是性能和成本上可以提升至少14倍。


4.使用NAS集成模型在线服务PAI-EAS推理平台

了解最大规模用户使用推理平台NAS场景里面如何加速他性能体验最佳实践分析用户在使用推理场景模型在使用NAS有非常广泛用户群体,以他最大规模大客户模型场景为例,在是讲是400级别模型大小文件,并发拉起是要百个多个实例是到拉起,用户他是分钟级别要并行多个gpu,是CPU,他访问推理并发拉起时,候是要分钟是秒级就拉起所有模型性能,当客户端吞吐,需要3GB能力


客户再使用多节点多个应用做并行推理加速过程当中,他也会有会有临时诉求,原完整400,要把切成200GB,模型再读取,一方面在分布式缓存能力本身来讲,在多个并发技术架构下,也会把数据做均匀尺度数据分发切片来避免数据热点,可以让所有计算节点缓存性能,能够加速分布式分发能力,往往在开发中小客户小模型跟场景,能够很好支持,针对十几GB几十台节点规模,部署可以达到分钟级别搭载,架构在使用PAI模型文件,用户可以通过一键部署PAi,后端就使用NAS,可以很好通过分布式域区能力来达到他吞吐能力最大化


5.使用NAS基于函数计算+TENSORFLOW的Serverless AI推理

云原生场景,用户使用函数计算来做模型推理服务,请求也是在瞬时几百上千规模来做瞬时读取,在NAS里面会执行NAS里面会存取函数,计算推理平台模型库第三方模型库,是模型文件存储。而在云原生场景之外,NAS除了分布式性能能力之外,还有一系列性能,在云原生存储里面,NAS是非常在极致弹性和高性能和可扩展性上也表现出了很好特质,多个云原生场景函数计算实力,应用力度也非常细,生命周期也非常短,在过程当中如何能够在海量高并发实力场景当中,能够快速拉起拉取存储实例,在弹性伸缩过程当中,如何能够很好做进一步急速挂载和卸载,这本身文件存储nas在云原生应用里面非常重要特性,结合在推理场景里面高并发系列分发和函数计算容器存储方面特质,使用nas基于函数计算在做test flowservice, AI推理也有非常广泛用户使用案例

 

六、小模型加速缓存池

1.OSS加速器,为模型加载重复读提供低延迟高吞吐

OSS能力上广泛提升,OSS加速器在推理场景,整体小模型加速缓存时,具有针对于在重复读,重复加载读场景当中非常优秀方面能力基于所有数据湖,通过构建基础,通过选存介质给oss加速器能力,构建小模型缓存池可以达到个位数毫秒,OSS访问协议往往是是通过像oss connector以及其它接口,通过接口访问可以针对于只读缓存加速里面,OSS加速器在推理场景用户非常青睐选择,在于并行规模扩展性上和极致性能体验性上也非常强大,通过多个并发节点,可以达到100GB并发吞吐规模,延时能力也非常强有多种缓存机制,当跟oss构建海量数据在训练推理多个data pipeline能够获取到OSS缓存时过程当中,加速器和OSA之间流动和数据流转,这是非常多种类型缓存机制,load淘汰机制可以是非常丰富和非常灵活


2.SeaArt使用OSS加速器搭建Stable Diffusion推理平台

了解典型案例。再使用OSS加速器搭建推理平台,用户在人工智能做智能绘画典型用户,oss能够存取他海量数据存取,加速器可以很好把热点模型数据做进一步加速,可以达到内存类型缓存可以达到个位数毫秒延时能力,用户也反映在使用OSS加速器做小模型推理,非常简单易用,无论是自动淘汰机制,用户只需要灵活做配置,就可以有非常多缓存机制满足用户在跟数据做交互方式读取在性能和吞吐表现上对于小模型加载缓存室,对于用户来讲非常可观,还可以非常好切换互相之间模型,在大规模做这一定规模模型切换,无论是从吞吐和演示这方面能力,用户体验无感。


3.阿里云存储,与开发者同行加速推动AI推理应用落地

整体分析在推理场景里面,使用包含是稳定存Nas,在高并发场景下,如何做加盟大规模高并发加载发能力,利用分布式缓存和p2p能力,也有些针对小模型加速缓存池,OSS加速器既能够体现出非常好灵活环境机制,也可以很好满足用户多种多种性能。非常简单,易用方式,更高性能推理存储优化阿里云存储面向所有开发者和用户推理场景至关重要关键生产力。对于水平扩展加速能力,针对于专门针对于推理场景。做大规模并发Skill out。所有能力能够,是不是被跟随高并发多个节点推力能够很好满足多个skill out场景,里面用户再使用推理场景极致用户体验,再进一步提升模型分发,加载和分发效率提升阿里云存储能够跟用户一起不断迭代能力把整个AI推理应用进一步加速落地

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
7月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
38888 20
|
2月前
|
机器学习/深度学习 安全 大数据
揭秘!企业级大模型如何安全高效私有化部署?全面解析最佳实践,助你打造智能业务新引擎!
【10月更文挑战第24天】本文详细探讨了企业级大模型私有化部署的最佳实践,涵盖数据隐私与安全、定制化配置、部署流程、性能优化及安全措施。通过私有化部署,企业能够完全控制数据,确保敏感信息的安全,同时根据自身需求进行优化,提升计算性能和处理效率。示例代码展示了如何利用Python和TensorFlow进行文本分类任务的模型训练。
129 6
|
2月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
62 6
|
5月前
|
运维 Kubernetes 开发者
容器化管理云上应用解决方案评测
容器化管理云上应用解决方案评测
61 2
|
6月前
|
运维 监控 关系型数据库
阿里云Serverless高可用架构深度评测:构建稳定高效应用的全面指南
随着云计算技术的迅猛发展,Serverless计算作为一种新兴的、以事件驱动的无服务器架构,正在逐渐改变企业构建、部署和管理应用程序的方式。阿里云,作为全球领先的云服务提供商之一,提供了全面的Serverless解决方案,包括PolarDB MySQL Serverless集群和Serverless应用引擎等产品,致力于帮助用户构建高可用、高弹性、低成本的应用系统。本文将深度评测阿里云的Serverless服务,从产品功能、使用体验、部署常见问题、文档与支持的全面性等维度出发,为开发者和企业提供实用的参考。
133 0
|
6月前
|
弹性计算 运维 负载均衡
解决方案评测|容器化管理云上应用
解决方案评测|容器化管理云上应用
125 3
|
7月前
|
存储 弹性计算 安全
构建高效企业应用架构:阿里云产品组合实践深度解析
该方案展现了阿里云产品组合的强大能力和灵活性,不仅满足了当前业务需求,也为未来的扩展打下了坚实的基础。希望本文的分享能为读者在设计自己的IT解决方案时提供一定的参考和启发。
378 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
26岁的“天才少年”,带队面壁打通高效大模型之路
**曾国洋,26岁的面壁智能CTO,自幼编程,清华NLP实验室研究员,致力于高效大模型。他领导的面壁智能通过OpenBMB社区降低大模型使用门槛,推动大模型训练效率提升与成本控制。在与昇腾AI的合作中,实现大模型性能与国产化适配,目标是使AGI更高效、普及。尽管市场竞争激烈,曾国洋坚信AGI未来并持续推动技术创新。**
|
8月前
|
存储 前端开发 持续交付
云服务模型解析:IaaS、PaaS和SaaS以及构建所需的关键技术
云服务模型解析:IaaS、PaaS和SaaS以及构建所需的关键技术
796 0
|
网络协议 关系型数据库 MySQL
企业级云上网络构建实践
本实验介绍了企业级云上网络构建的核心概念以及构建方法,这些概念可以帮助了解如何在阿里云上快速的进行基础网络的创建、业务隔离及多网之间的互联互通,助力更好的在阿里云上规划网络。