真实场景|芯片研发平台如何真正实现一体化混合云调度?

简介: AI芯片设计公司X面临多项目并行研发的高并发算力缺口,本地集群资源紧张。为解决混合调度和成本可控的难题,X公司引入MemVerge的EDA混合云研发平台。该平台统一调度本地与云端资源,无缝兼容现有工作流程,智能动态扩缩容,优化成本。例如,在前端回归验证中,3000个job通过优先使用本地2500核集群,剩余1000个job自动调度至云端运行,确保高效处理。对于新项目紧急任务,平台智能分配云上资源,并收集运行数据优化后续调度。

当研发效率撞上算力天花板

高并发算力缺口,混合调度、成本可控是EDA混合云研发平台的三大痛点。

AI芯片设计公司X,一家通用AI芯片公司,重点打造高性能云端AI加速芯片。

X公司的发展蒸蒸向上,除了目前手上的项目,即将又有3个新项目上线,而且新项目架构复杂、规模大比原来项目大5倍以上,本就捉襟见肘的本地集群将更加吃力,面对多项目并行研发,项目高峰时对算力波峰较大的挑战,X公司首先想到的就是本地+云的解决方案。

混合云的两难困境

"直接扩容公有云不行吗?",技术团队心知肚明——

  • 海量仿真数据集迁移成本高
  • 本地和公有云是两套集群,不改变现有研发的使用流程情况下两套集群如何统一调度
  • 云端按需采购虽灵活,但突发性需求可能导致月度账单失控波动

这种困境恰似"量子纠缠":本地集群与公有云明明都是算力载体,却因调度壁垒形成两个孤立宇宙。

所以,X公司需要的一个新的EDA混合云研发平台——

  • 统一调度本地与云端资源:打破本地集群与公有云的割裂,实现算力池化,研发人员无需切换平台即可调用混合资源。
  • 无缝兼容现有工作流程:支持LSF调度系统集成,保持研发人员的使用习惯。
  • 动态扩缩容与成本优化:根据项目需求智能匹配资源,避免过度采购或闲置浪费。

MemVerge的解决方案

引入MemVerge后,X公司新的EDA混合云研发平台更像一个智能AI,研发工程师每天只需要按照原有的LSF调度系统的使用习惯,提交job即可,剩下的操作Mem Verge平台可以自动完成。

  • 优先使用本地2500核集群资源
  • 通过历史任务建模预测云上负载
  • 在本地资源占用达85%阈值时预热云资源池
  • job运行数据及时采集分析优化新的调度策略

(以下基于真实场景改编,已做技术细节脱敏,在本案例中假设单job单核)

01

我需要做前端回归验证,先提交3000个job,但我们本地只有2500核的集群,现在应该还有部分任务在跑,我要怎么拆分这3000个job?

{thinking……}

嗯,用户现在需要做前端回归验证,提交了3000个job,已知目前本地LSF集群只有2500核,可能还有部分任务在运行。首先,我弄清楚了当前本地集群中有500核被小A的任务占用了,那么就只剩下2000核可用。我需要确保所有任务能高效运行,同时避免资源过载。

接下来,用户面临的是资源不足的问题。可能的解决方案为,我需要拆分这3000个job,根据本地空闲资源量和历史数据分析,第一批我将选择其中2000个job优先分配到本地集群队列fe中。

现在的问题是剩下的1000个job,根据用户任务紧急程度,我的解决方案是burst到云上集群,解决本地资源不足同时不想排队等待的问题。

已执行,其中2000个job优先在本地集群队列fe运行,另外1000个job自动burst到云上集群运行。

02

我提交到云上的1000个job,job所需要的算力有大有小,我要如何匹配机型?

{thinking……}

嗯,用户需要知道如何为云上1000个job寻找合适机型,根据这些job历史运行数据分析得知,我知道其中部分800个job需要800核资源,另外200个需要使用200核资源。

接下来,我会在云上映射一个虚拟队列fe,其中包含了8c16g机器100台(800核);8c64g机器25台(200核)。

已知我在单任务的启动开机时间上,较业界同类主流调度平台,能缩短40%-50%,因此我将在短时间内迅速拉起大规模集群投入作业。

已执行,云上启动8c16g机器100台;8c64g机器25台。

03

我的新项目中有1500个job,比较紧急,新项目不清楚算力用多少,怎么办?

{thinking……}

嗯,用户提交了1500个紧急job,已知今天本地集群已满,目前40台机器都在满负荷运行中,我需要将用户的任务放到云上运行。

现在的问题是:这1500个job来自新项目,我的数据库中没有历史数据支持,无法准确判断这需要的算力资源有多大。

接下来,我的解决方案是将1500个任务分配到云上队列sim,先选择队列sim的默认机型32c256g,那么我需要47台。

最重要的是,我需要收集本次运行数据作为后续调度机型的参考标准。

已执行,您的1500个job将在云上队列sim中运行,需要47台。我将在任务运行结束后收集本次运行数据——所需要核实和运行时长等,当您后续提交该类型job时会第一时间优选最匹配机型。

目录
相关文章
|
安全 Unix Linux
linux命令之rmdir
linux命令之rmdir
735 5
|
运维 监控 数据库
如何实现软件SaaS化
如何实现软件SaaS化
|
3月前
|
弹性计算 编解码 应用服务中间件
阿里云服务器购买价格参考:新用户专享与新老同享云服务器活动价格
2026年阿里云新用户可享受轻量应用服务器和经济型e实例特惠,老用户同享99元、199元云服务器及第九代高性能实例折扣。阿里云通过u2a、c9i、g9i、r9i等多款实例规格,满足从个人开发者到大型企业的多样化需求,结合优惠券使用,实现成本效益最大化。用户可根据业务需求和预算,选择最适合的云服务器配置。
606 12
|
7月前
|
缓存 Kubernetes 调度
《Pod调度失效到Kubernetes调度器的底层逻辑重构》
本文以Kubernetes 1.26混合云原生集群中核心交易Pod早高峰扩容时频发的调度失效问题为切入点,详细阐述了故障排查与解决全过程。通过分析cadvisor原生指标、启用调度器详细追踪模式并对比etcd快照,最终定位到自定义调度器因移除事件去重机制、延长缓存校验周期,在多事件叠加场景下出现缓存与etcd标签不一致的核心问题。据此提出短期修复逻辑漏洞、中期优化事件调度、长期构建韧性架构的三级方案,并提炼出性能优化需兼顾逻辑严谨、构建全链路监控等实践。
166 7
|
资源调度 监控 调度
HPC高性能计算场景中如何实现“运行时调度”
在HPC高性能计算中,使用LSF或Slurm提交作业虽方便,但过程往往不可控,作业运行如同黑盒,失败后才能排查问题。为此,MMCloud提出“运行时调度”理念,实现在任务运行过程中进行智能资源调度,最大化资源利用并优化成本效益。与传统工具不同,MMCloud能够实时监控任务状态,并根据算力需求动态调整资源分配。
349 0
|
9月前
|
存储 人工智能 调度
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。
221 0
上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
|
算法 C语言
c递归
c递归
165 2
|
机器学习/深度学习 运维 监控
一文速览深度伪造检测(Detection of Deepfakes):未来技术的守门人
一文速览深度伪造检测(Detection of Deepfakes):未来技术的守门人
3763 0
|
物联网 监控 API
IoT平台设备标签功能和规则引擎组合最佳实践
助力设备管理,多维度检索,GIS展现
4285 0
|
负载均衡 算法 Linux
LVS+Keepalived:实现高效软负载均衡的利器
本文介绍了如何使用LVS(Linux Virtual Server)和Keepalived搭建高可用负载均衡集群。LVS通过不同调度算法将请求转发给后端服务器,而Keepalived基于VRRP协议实现服务高可用,避免IP单点故障。具体步骤包括环境准备、安装配置ipvsadm和Keepalived、启动服务及测试。文中还详细解释了配置文件中的关键参数,并提供了故障转移测试方法。最后,文章简要对比了软件、硬件和云负载均衡方案的特点,帮助读者选择合适的负载均衡策略。
2021 4

热门文章

最新文章

下一篇
开通oss服务