一、容器技术实践发展
目前容器技术已经成为了云计算操作系统,向下高效调度多样化异构算力,评比基础设施差异,向上提供统一编程接口,支持多样化工作负载。团队已经在云上服务了数万企业客户和众多开发者。帮助众多企业实现了互联网架构升级。在帮助更多企业客户来实现智能化和数字化专心。可观察像自动驾驶以及大模型等一系列创新应用运行在主体平台之上。
2024年巴黎奥运会是阿里云承载一次云上奥运盛会,在背后阿里云容器服务支持了大量赛制系统,在云上以高效稳定在运行,对个人来讲,就子弹时间特效是最难忘时刻,因为捕捉了运动瞬间之美,全景方式展现了力量和美结合。在过程之中,在赛场上通过多个视角来去采集,视频,同时将数据传递到云端来实现实时空间建模和3D渲染。在过程中,可实现秒级处理完毕和直播融合,让观看体育赛事成为了新视觉体验。同时向赛事官网基于整体阿里云容器服务。在全球包括法兰克福等多个地域进行进行部署来给全球客户提供稳定高效访问能力。视频云关键技术设施都是运行在阿里云容器基础设施平台,比如像AcK来支持了向全球观众视频转播。全球著名分析机构Garner发布了容器管理模拟象限。阿里云蝉联全球领导者,亚洲唯一。
1.新算力-弹性、普惠容器能力
(1)ACS容器算力重磅升级
首先将分享弹性普惠容器计算新算力。在已经发布了acs容器算力产品,对ack和 acs设计是科技产品提供统一serviceless容器算力,同时支持通用计算和加速计算。在带来了重磅升级。首先为极致弹性,根据用户应用负载特征,可支持预调度,将定型创建速度从每分钟7000pod提升到每分钟1万pod。第二,在行业中首次为serviceless层面带来了动态柔性能力。在CPU执行在应用执行过程中, CPU使用量是存在一定波动,cpu峰值预留资源就不可避免带来资源浪费。现在支持秒级CPU资源热变配,可轻松解决启动加速包括Vpa等业务场景。第三,普惠应用acs提供更细腻力度三立规格,更加贴合应用,减少资源浪费。同时在业界率先推出了按天节省计划,每天波动潮汐在典型场景可实现降本55%。
(2)弹性临时盘-为大数据与AI应用增效降本
随着技术成熟,可观察数据密集型应用越来越多加速,向云原生迁移。与serviceless微服务不同,工作负载对存储解决方案提出了更大挑战。在大数据和AI场景非常常见领域,是对高校临时数据访问,如分布式缓存都需要海量IO吞吐能力。在过去只能靠本地盘来解决,但是本地盘丧失了云盘弹性优势。在此背景之下,弹性容器盘弹性临时盘产生,作为新高性能高性价比存储设备,可实现本地盘一样超高吞吐性能,同时支持像云盘弹性容量扩容,所以可实现兼得,可更满足在AI大数据场景很多数据处理需求,以pv方式或者数据盘方式发带AC进行使用。在对数据高可用有更加严苛需求客户场景中,如数据库,消息队列以及中间件。过去为了实现高可用架构,通常要在不同根据不同副本,在应用层实现数据同步和复制。灵活但带来挑战,体现在数据一致性保障以及运维复杂度提升。
(3)跨可用区云盘-简化数据高可用架构
基于此阿里云推出跨可用区云盘,能够将数据跨可用区进行存储,有效提升数据可用性,同时降低构建高可应用架构带来复杂度。技术出厂公司,auto mq基于跨可用区云盘实现了对消息队列高可用数据存储,利用相关技术保障数据一致性。当可用区出现故障时,可在秒级实现故障切换,有效提升业务一致性。
2.新机遇-开放、高效智算底座
分享基于容器技术构建高效稳定智算新底座,帮助迎来新时代机遇。
(1)开放Cloud Native AI参考架构
迎接AI时代到来,需要海量算力和对其高效调度和利用。预测超过75%AI应用,将部署在容器环境之上。团队服务了众多国内AI创业公司和阿里云,大量AI产品。呈现出Cloud Native参考架构,致力于推动云原生和AI两个领域系统性融合。云原生原框架包含多个层次。在旧设置层,希望容器产品能够高效利用基础设施带来澎湃算力,包括像对GPU细腻度虚拟化,包括对CPfs网络支持以及对灵骏智算集群高效优化,充分发挥整体技术设施带来高性能大规模优势。
资源编排和调度层,充分结合AI工作负载和底层资源,进行高效调度,让AI系统具备更性能和更高资源用率进一步提升整体AI弹性与稳定性。同时支撑开放生态系统,具备可扩展框架,允许客户自由选择,如云原生AI服务,开源AI框架,以及来自合作伙伴产品,帮助企业加速自己AI业务创新。
(2)容器智算-GPU可观测性与故障自愈
分享关键能力增强。gpu集群稳定性影响AI任务效率与成本。在meta发布报告中,可观察在llma3.1训练方法集群中,大概平均每三小时就把发生一次故障。GPU故障快速发现快速恢复对性能瓶颈快速定位已经成为分布式训练持续挑战。ACK持续在优化对gpu相关可观测性和故障处理能力。GPU监控大盘提供超过40种监控指标,帮更加清晰理解自己系统执行状态。同时,提供了基于EDf轻量化profiling工具,可按需开启,可无切入方式去到现在应用对整体资源应用情况,同时增强了对gpu故障诊断能力,对典型故障场景可做到自动发现,自动恢复和对AI任务重新调度,使得整体GPU故障解决效率提升50%。
(3)AI推理弹性加速
大模型性能取决于参数量,但海量参数影响推理服务启动速度。该问题通过结合镜像加速套件和数据编排两个技术,通过无侵入方式提升模型启动效率。通过套件提供加载和应用分发技术,可使得GPU应用镜像启动速度下载时间缩短80%。同时利用Free在kubernetes集群建立相应分布式缓存,可通过数据亲和性调度,极大节省网络拉取模型所消耗时延。同时,通过对缓存弹性伸缩,可同时满足对吞吐和成本控制需求。进一步通过对模型异步拉取和预热手段,可进一步去改善大模型启动效率。通过手段,对queen72b模型赛事时间可从过去10分钟缩短到不到40秒。通过这两个手段,结合可将能启动时间下降85%以上,极大提升了服务响应速度和弹性。
(4)智算、超算、大数据应用云原生一体化
可了解业界智算超算大数应用原生一体化已经成为趋势。越来越多客户希望基于kubernetes实现对底层资源统一管理,来对AI HPC和大数据应用进行统一调度来实现简化运维,提升资源利用率目标。发布关于ack支持,可帮助客户在ack集群对大数据和AI任务进行更加高效调度,同时具备更弹性,安全和可观测。而所有能力都可通过应用目录一键获得.在社区跟一起在推动更多工作负载原生化,更多计算任务标准化,希望和更多互动共建。
3.新范型-智能、自动运维优化
分享基于智能化自动化技术优化集群运维和稳定性。
(1)即时弹性-更快、更稳、更易用节点弹性扩容
资源弹性方面,已经发布即时弹性节点池,用来解决资源弹性场景下弹性效率,确定性和应用性问题。继弹性电池有了长足发展。产业效率方面,能在集群出现产业算力缺口35秒以内做到节点就绪。通过对底层ecs库存感知,可将弹性成功率提升到99.9%。不同于传统方式,即时弹性允许客户采用更加灵活方式描述对ecs规格定义,如就想8代机型,这时候即时弹性节点池会根据所需算力要求以及库存情况,帮助客户进行自动筛选,提供扩展筛选策略,帮助客户根据自己应用来进行对成本,可用性进行灵活控制。即时弹性电池,帮助客户实现了大规模弹性能力。通过自动筛选ecs规格可大大降低运维复杂度,并且保证在海量大批量弹性场景35秒节点就去无性能衰减,可满足业务峰值。
(2)智能应用弹性-开启应用弹性“辅助驾驶”
智能应用弹性是客户重要诉求。影响弹性难度高,需要对整体应用复杂有高层次理解,并且根据经验对每个应用定制合理弹性规则,且随着应用不断变化进行调整,使整体弹性变得更加有效。为此推出弹性策略辅助驾驶,会根据应用容量以及对持续分析去自动为hpa vpa 等提供相应弹性策略自动生成以及优化建议。通过方式可缩短弹性策略生效时间25%,场景减少20%资源浪费。
(3)可信赖集群托管运维
容器服务优点为稳定性。目前持续去构建可信赖集群托管体验。控制面简化用户集群版本升级能力,提供stable等不同升级渠道,可让用户快速稳定获得自己所需要功能。提供了对API自动化检测,整体升级过程更加平稳,降低了对稳定性影响。
数据面,加强对节点池自制和自愈能力。如主动运维事件进行了更结合,当底层出现宕机迁移维动作之前,就会对节点进行排水和应用迁移,进一步降低了对业务中断影响。目标是让去更加专注在自己创新突破,而去帮助去解决运维复杂度。
(4)智能运维-AI助手简化集群运维管理
运维复杂度为大众持续关注问题。已发布基于领域大模型和专家系统Ack AI助手,目标是成为用户贴身kubernetes专家,可通过更加直观方法帮助客户进行提存集群运维和管理。目前进行了一系列增强:智能体检, AI助手能够对集群稳定,安全,成本,性能进行全方位体检,及时发现问题,给出建议,在异常检出率达到85%。
智能诊断方面进一步加强了更新分析和相应修复建议,尤其是在GPU相关场景,在异常诊断更新定位率现在大于70%。同时在安全上做了很多工作,可帮助实现更加更加简化安全风险发现,以及对安全治理策略自动化服务生成,可节省安全管理复杂度60%。
(5)容器供应链安全能力升级
预测提出2025年有超过45%企业会遭受软件供应链攻击。数字是2021年三倍。面对软件供应链风险,阿里云容器服务提供了完善供应链风险防御机制。在推出支持OCI社区1.1标准,即能拿开放生态工具链来实现对逻辑镜像AI模型统一管理和数字签名。结合ack提供自动化治理能力,可实现通用云原生制品供应链管理。同时加强对整体软件治理清单能力,支持可更践行安全左移策略,使得能在早期就发现镜像中所存在风险,并且在全生命周期进行追踪,通过智能化手段,可发现在docker file中存在安全风险,并给出修复建议。
深势科技基于容器服务提供安全策略治理能力实现了日均万次容器风险治理和安全审计。
4.新常态-分布式云原生架构设计
分布式云原生架构为新常态。客户应用可选择布置在公共云边缘,或者是自己数据中心来满足对数据安全合规以及业务连续性不同需求。
分享在整体阿里云在分布式云原生产品能力。
(1)分布式云原生基础设施
ACK one是在分布式原生重要产品,通过多级舰队可实现对多个云上云下边云上多个集群统一应用交付,任务调度,流量管理,可观测性和安全能力。ZEEKR汽车利用ACK one,实现云上云下多个集群统一管理,使得整体系统安全和业务联系有了显著提升,降低了25%资源用量,运维效率提升80%。
(2)分布式多集群应用交付
ACK one加强在分布式应用交付能力,在支持GOPS方式技术之上,推出跨集群资源分发,可让现有kubernetes工作负载可不做修改或很少修改,可部署在快多个集群部署,并且可灵活控制灰度发布,提高发布效率和稳定性。
(3)多地域、跨集群任务统一调度
自动驾驶和大模型训练合理场景需要算力,地域算力无法满足诉求。用户诉求为云上云下集群能够更高效统一调度来提升。虽然应用率问题里加强了跨集群统一资源调度,ACK ONE可更加高效利用多个地域集群能力,可根据资源库存情况,数据进行合理调度选择。如地域有gpu资源,但是数据不在此,可利用数据缓存加速来进行预取,提升整体数据处理效率。
(4)跨集群服务网格-分布式应用互联与高可用架构
跨集群服务网格方面,ASM增强跨地域,跨集群访问存储能力,帮助客户来实现云上云下高可用应用架构提升业务连续性。Asm跨境经营代理有效解决了多机群在网络地址冲突上难题来实现多区间互联互通。北京合资利用asm提供跨云快递型网络能力,实现了云上K8s打通。当地域出现故障时,可用ASM快速进行流量切换。基于该优化,整体配置生效时间缩短了50%,配置所需功能带宽消耗降低了90%。同时在数据面对整体服务网格技术进行了全面升级。
(5)服务网格数据面升级-简化、高效
第一,网络团队共同推出了阿里云mesh给位一种新集中式网关,与社区相比性能,吞吐性能可提升2.3倍,进一步降低使用meshASM及软件一体优化,对数据面进行了全面优化。通过相关技术来去优化跨节点之间套分组,可实现KPI进行20%。同时通过优化在路由协议转发,可让整体PPI加上10%,同时效率提升200%。
(6)容器服务助力企业数智创新
未来10年容器技术发展前景较。所使用云计算和原生技术客户和开发者都是先进生产力代表,必将成为AI时代造风者,而队伍是提供坚实原生智算底座,助力在云AI时代进行创新和突破。
二、Kimi LLM调度系统实践
由Kimi工程副总裁许欣然进行KIMI相关分享。
KIMI智能助手是列表面最主要一款产品。从已经发布了之后,整体用户量一直在快速增长,目前已经是整体市面上最受欢迎智能助手软件,凭借了非常卓越长文本精读,智能遵循能力,还有各种智能搜索等等,收到学生还有专业人士欢迎。
1.LLM流量特点
KIMI内部为整体大语言模型重新做了一套调度系统。存在质疑:目前用户量,跟传统电商还有社交软件后端相比,数量级存在差距,缺少必要性使原模型单独为去开发一整套完全独立调度系统。
原因:整体原模型后端节是差别大,特点是非常强依赖gpu,语言模型背后gpu都需要记过去帮计算。而gpu成本高单价贵,不能浪费。且GPU在整体供应上是非常不弹性,跟CPU不同,gpu下单时间长。相对于整体缺少弹性。
需求方面,流量潮汐非常明显,聊天场景会发现实时流量波峰,还有波谷中间有着10倍甚至上百倍波动,会导致整体在供应非常稳定基础数量情况之下,白天资源不够用。晚上gpu就都在闲着浪费。用来弥补特点是语言模型在很多像数据处理大规模达标分类等等,场景中是有非常应用,在夜间还有比较空闲流量时候,几乎有无穷无尽推理需求,可把需求完全打满。如果把这两种流量都承接掉,会时常处于一种系统超载状态,表现上看到系统不断有大量状态码。结合原模型请求时间非常长,这两个特点会使得很多传统自动扩缩容,传统运维手段失效,因为很难根据系统现在是否已经有太多超载,或者请求时间变长了去判断是否给集群做扩容缩容。
2.LLM调度系统设计目标
需要针对系统去开发一套单独独立调度系统,内部去设计系统关键一点为常态化429状态,如把持续处于超载,甚至是响应不过来这么系统,认为这是常态。通过方式,保证整体系统请求量,时时刻刻是大于整体系统处理能力。gpu就总是能够保证被充分利用,成本更低。当然,除了成分像一件事情之外,是另外这几个要求,其余跟传统业务要求是类似,如比较重要实时去沟通聊天东西不能不能被打断,或者出现429卡顿就用不了情况,以及大模型,因为做流式不断生成这么场景,投资速度保持稳定均匀输出,并且不能在有严重卡顿,所以都会导致,如整体系统小作迁移,是这几十秒之内想做迁移,是非常困难。满足上面所有基础之上,就尽去降低整体推理上基础占用,可把成本降
低。
3.Kimi LLM调度系统
在内部设计组件和模块,共同去完成和实现上面设计目标。很多模块跟传统阿里云,或者很多传统运维系统模块组成是类似,但是整体系统中由于超载,还有GPU特点设计思路不一样。就使得很多模块跟传统会出现很难同时开两份集群并去调度流量,而是必须要配合流量数量去对应调整gpu分配比例,所以都是跟传统灰度上线思路非常不一样模块。
4.KIMI调度实践
以流量调度展现语言模型调度区别,这张图是整体是语言模型流量分布,可观察潮汐特点是非常明显,在夜间或者如中间坑是去吃饭时间,流量峰值有差异,整体上面这条虚线是 gpu固定固定值,所以相当于绝大多数时间都在控制。非常自然一件事,可通过流量预测,还有提前分析,可提前知道有接下来多长时间,有多少是控制,可把所有控制地方去安排上相对应训练任务,把技术就充分利用起来,可观察,并不是所有空闲地方都会被新任务占用,是因为任务本身自己是有特殊要求,节点数量包括进行了这段时间等都有特殊要求,在做了分割之后,会发现问题是预测模型,不管做多么准,确都没有办法100%来保证下一秒流量来时候,总是能刚被承接住,这一点就导致要预留很多去承接这部分资源突发值,造成了浪费。因此引入了所谓叫可打断流量,可观察所有浅色部分,是相对比较容易方便打断流量,通过一定设计,可使得流量维持在10%左右百分比,流量是Kimi上在用APP时候,后台分析功能,或者是像如给tips等等小功能,流量高峰被降级对用户体验影响是非常小,通过可打断流量,就有更加充分空间去把实施流量突变去容纳下来,借由大量流量8份,再把整体推理错拉起速度去降低到一分钟以内时间,就有比较充分空间,能够在流量突起时候,去承载自己流量。还有很多空闲,空闲是依靠离线任务去填补空间,离线任务对节点数要求会更加随意,离线任务基本上都是原模型离线推理工作,对工作们对节点数量要求如会更零碎,甚至多种更适配实时流量,如有很陡峭坡峰,可逐步去调整,去把空间都填补上。最后还剩了空白地方,在内部会用所谓叫闲时流量空间去填补,闲时空间:即便拥有非常完美离间任务,对于GPU,跟传统弹性CPU的区别为GPU显存非常小设备,显存小导致了很难同时开启两个独立任务。GPU任务占用了,基本上就完整独立占用,很难再开第二个任务去跟抢占GPU算力资源,情况下,如对于一次推理,GPU最饱满时间为同时响应22个,请求,但是实际上在这节课实时流量包括前面提到可达流量刚只有12个,或者就差一点点情况,GPU在这段时间就会处于虽然通过监控界面看确gpu是100%有机体,但实际上是知道有更多处理能力,此时放置对时间非常不敏感显示流量,随时在秒级单位上,当发现GPU在这一刻处于空闲,就会把流量拼进来。此种方式几乎在整体流量曲线上面,是把所有技术空间都压榨在秒单位上,会让整体利用效率高。是上哪去找这么多离线任务,包括对时间是要求这么低,是不是不是什么时候做完就什么算完,今天流量多就等一等需求。
作为追求大模型公司,在事件大模型过程中,会同样产生几乎同样,甚至更多推理需求来辅助整体模型训练工作。而流量最大特点是对时间容纳程度是非常高,推理请求多,且完全可接受非常长时间以及不确定性,通过这些流量就可把充分去干。
5.混合部署带来的挑战
理论的多优先级,包括把训练和推理混合在一起去做调度工作,但实际上在内部为了达成尽高利用率,以及有些非常现实挑战,如gpu实际上是很难在单一集群位置去满足想要规模,会在很多层面上去做流量混合,包括部署会产生很大的挑战。
6.KIMI LLM API
高可用就可去响应整体KIMI非常巨大流量波峰波谷变动,并且提升比较优良体验。API而在过程之中,不需要去为更高并发去付出额外成本承诺最低消费,这一点是跟很多竞争对手会不一样,竞争对手会,单价很便宜,但是今天想要获得100并发保证,不要去额外付出消费。Kimi平台,就完全可去在界面上自助去获得这么多流量弹性,只需为token付费,并且由于系统优先级设计,在跟签订承诺之后,更是可达到99.5%token可用性。在tpm的限制范围之内可以做到只要有请求就有对应的GPU资源服务。如果大家使用KIMI的API去开发自己的应用和产品,我们非常支持,我们的目标也是去服务从零到一,从一到一百的持续扩张规模的应用,
三、深势科技实践分享
分享内容是深势科技基于原生架构一套多云算力融合解决方案。首先介绍深势科技。主要专注于AI4S领域,在领域里面遇到算力问题有哪些为什么要去提出一套多元算力融合解决方案会跟去讲详细架构实践情况,最后会跟汇报多元算力融合方面公司努力。
1.深势科技
深势科技,源自中国,面向未来,引领全球新工业革命。通过人工智能手段,结合多尺度模拟仿真算法和先进计算手段去解决重要科学问题。正如底层基础模型算法,原子间势函数大训练模型,一定要研究分子构象关系大模型。底层有一系列算法群,希望通过这一系列基础模型,打造新一代工业设计仿真平台,并且能在一系列场景端去展现出先进研发平台,展示了相关,这是在医药领域RYDYMO是同样靶点靶标研发平台,药物设计平台,电池自动化研发平台,波尔空间站是针对于泛科研领域客户提供一套教学沿用一体化科学研究平台,设计和仿真平台,以及自动化研发平台去赋能像上游工业场景。
2. 02勒贝格:AI4S场景的高效算力方案
针对于AI在领域,为什么要去解决算力问题在算力层面,到底遇到什么样问题,要去用到多元算力融合。
首先会先分享AI4S领域,计算特点,从微观到宏观,不同时间尺度,还有空间尺度上都有了现成物理模型,如像薛定弩方程,像分子动力学模型,模型被经常用到很多工业场景当中,如药物设计,如材料设计,过往传统物理模型里边所解决是在多尺度跨尺度计算场景当中,如希望通过原子结构去预测物理性质,边就会涉及到微观计算问题和宏观场景问题映射。AI出现给问题求解带来新能力,可通过对微尺度物理模型学习,去映射到物理场景,或者是工业当中问题进行跨属建模,从而很去解决问题。
由于涉及到跨尺度计算问题AI4S涉及到AI和科学计算融合问题,就必然面临,要用到AI里面常用训练和推理方法,以及多尺度计算不同尺度上物理模型计算问题,在应对问题很多基础设施问题就会变出来,如算力不高问题,边经常会像不同地域,不同类型问题算了一流问题,比如常见CPU和GPU,当然有fpj,在科学计算领域,不同尺度计算差异会非常大,对算力与网络等要求不尽相同,甚至有时候会有针对某些物理模型专属硬件出现,所以算力问题,在非常严重,还有是在计算任务当中就会出现算力使用波峰和波谷问题,如在科学计算和AI融合场景,在早期数据数字化阶段,需要调用有上千盒甚至上万盒CPU去进行物理模型运算。在后续推理过程当中,仅需要通过少量gpu就可完成推理动作。
所以为了应对问题,给出了解决方案,上层是各种各样工业场景,像生物医药,材料科学等等,在下一层会给出像物理模型运算软件,以及AI模型,算力场景会首先对上游提供整体产品包装和统一统一原理,调用原语,会去做场景和算力映射,在底层算力资源池,会将算力集群统一,通过勒贝格汇聚成大资源池,在大资源池里面,会帮用户去统一完成调度工作,就能够打通了连接业务和基础设施进行高效算力匹配。同时解决算力异构问题,比如接入过程当中,有CPU,甚至国产芯片,会在底层算力损失去进行处理。平台会有至少包含人工智能几个要素,算力算法数据,以及物理模型和AI算子模型。从平台优势上面,要打造算力充沛,开箱即用,使用便捷。需要让用户边对整体完整计算过程可追踪计算结果,可分析简化,加速,会针对于不同工业场景,会打造一整套包括镜像包括容器,套件等等一系列场景套件,帮助不同场景用户能够快速接入系统。
3. AI4S场景方案架构实践
首先算力系统演进。因为实际要用到一套算力系统去解决自己训练问题。首先选择是科学计算,要去上云,当时是基于阿里ecs去做,后续随着弹性调度需求越来越高,开始去转向云原生,最早在科学计算领域里边去做云原生架构一套平台,现在随着SSI逐渐成熟作为主要算力使用。慢慢在解决问题之后,随着包括去接入算力资源,越来越多,逐渐会开始去封装出上游产品,包括整体公司所有产品线都是基于一条基础设施,现在整体算力基础设施可拿出来单独去做商业化运营。
对用户侧,提供三种使用方式,一种是通过操作界面方式,用户可通过可视化方式直接去进行算力调度,第二种,因为科学计算用户很多老师更多是超算用户转到这转过来了所以会提供过去调用方式,还有一种是开发者onpi,主要是应对于老师已经本身自己再去研发商业化应用,只要用到算力,可通过方式去接入,再往下产品功能层面过程中,像项目管理,因为很多科研组,都是走项目制,是走预算制,所以项目管理预算管理对是刚需以及会对数据产品和算力产品做了统一包装,下一层是调度层和资源层,调度层主要是算力调度,存储,调度镜像,以及监控等等基础设施稳定保障。在资源层,主要分为公有算力和用户算力。公有算力,主要是以混合云为主,用户算力,更多是用户自建边缘集群。
这是一套多集群调度方案,涉及到很多底层集群异构问题,有些老师边缘节点,是没有云原生化,所以一般会去先帮去做云原生改造,以及不同节点上面会加边缘AGANT,主要是完成边缘集群管理工作,做事情是聚会给主要是跟AGANT进行通信,将调度策略去下发下去,把所有集群统一化管理对上层提供统一接口,调度部分包括缓存处理,存储调度等等,再往上是平台建设了。
为了让算力能够更灵活调度,因为存储问题要做本身会因为就联系非常紧密,要想对算力进行更多调度,要把存储和算力给拆开,所以做了统一存储统一是统一方式存储和存储存合理架构。架构基于阿里云规则。存算分离带来静态性能问题,肯定是希望存储和计算离更近,方法为在不同边缘集群加一份高速缓存,主要以类似缓存加速系统为主。当用户再去做训练时候,将存储进行一次调度,所以存储和算力调度是协同来进行。往上是对于用户存储产品层面包装,如数据集,共享盘,包括任务IO等等,用户再去使用产品,只需要去用到数据产品,而不需要关心实际存储介质,就会帮用户去调整到合适算力以及合适存储。
工作流解决方案,基于argo,同时对ARGO进行了二次封装。方案已经开展了,边是ARGO主要区别是在于架构,在工作流每节点里面,不会去调自有k8s资源,而是去做了一次整体勒贝格调度系统。所以认为整体工作流,是跨域异构算力一套工作流,可去在每个阶段里面去进行不同任务调度和存储调度,整体工作流,目前不管在管理节点。
4.勒贝格智算平台应用实践
案例分享,是跟创业实验室一起合作案例,当时客户需求是要自建数据中心,用户需求是当本地资源池足够用时,高用本地资源,本地资源不用时候,够去谈到云。超算上面去,所以做了一套云端一体云超一体方案,所以当时是管理大概 CPU是10万核,百量级GPU卡,这是底层架构层面,对上层层面是用户提供了本地化,是能够去直接使用可视化系统,帮助所有科学研究。
随着勒贝格方案逐渐成熟,就吸引到其它用户,发现因为整体这条架构体系,这蛮适合中小型Aigc企业,预算有限,算力使用相对临时需求。上图是100 600动态扩容需求,三天就可以把整体算力服务提供出去。最后案例波尔空间站,它是教学一体化科研,称之为空间站,主要是针对于老师上课场景。同学在上课过程当中可去看老师上传课件课程,右侧边是notebook产品,更多是零散算力使用需求。notebook和codelape区别在于模型计算和Ai场景。大多数有大的镜像就可以支持所有的运行环境。在科学计算领域不太一样,因为不同领域,使用软件都不尽相同,所以没有办法通过镜像去满足所有需求,比如有1000个案例就很有需要1000个镜像去支持,镜像加notebook文本来构成才能把整体案例给支撑起来,所以通过一系列,基于底层一套算力调度方案,在能够做到10秒开机顺利运行,这是对针对客源上讲方案。
以上是所有分享内容,感谢聆听。