据企查查的数据显示,2023年,平均每天有30家芯片企业在消失。
在政策、资本聚光灯下泡沫翻涌的半导体行业进入“冷静期”,2024年,有的项目已然退场,有的项目冉冉升起。
S半导体,一家位于中国上海的数字芯片创新企业,半年内连获两轮融资,第一款芯片也即将面世。在激烈的竞争中,他们率先卷出了“消费降级,体验升级”的新实践。
01 不能不面对的算力挑战
从上世纪五十年代手工绘制电路到如今的计算机辅助设计,集成电路(IC)设计的复杂性日益增加,芯片研发设计工具(EDA)对算力资源的精细化需求也逐渐凸显。
· 算力波动:在芯片设计的各个阶段,对算力的需求呈现出显著的波动性。
- 初步设计与仿真 - 在这个阶段,设计师使用EDA工具进行初步的电路设计和功能仿真,这通常需要中等规模的计算资源。
- 详细设计与优化 - 这个阶段需要进行更为复杂的仿真和分析,如时序分析、功耗分析和信号完整性分析,这些任务对算力的需求显著增加。
- 验证与回归测试 - 芯片设计完成后,需要进行大量的验证和回归测试来确保设计的正确性。这包括功能验证、时序验证和综合验证等。由于需要处理大量的数据和执行复杂的算法,这个阶段对算力的需求非常高。
- 物理设计与布局布线 - 在物理设计阶段,EDA工具将电路设计转换为可以在硅片上制造的布局和布线。这个过程需要处理大量的几何数据和执行复杂的优化算法,对算力的需求达到顶峰。
· 成本问题:算力的波动导致如果为了满足各阶段的算力需求而搭建更大的本地集群,前期的IT基础设施投入会很高,而且在算力低谷期还会存在大量的资源浪费。
· 管理复杂性:如果为了省成本考虑使用本地集群+云端算力混合模式,算力资源的管理变得更加复杂,企业就需要精通本地和云端的IT架构,以确保资源的有效利用。
02 本地+云,能解决问题吗?
来自S半导体研发部门的Kris说:“我们在日常研发过程中,每次前端回归验证(regression),EDA软件会产生2000并发以上的短时计算任务。”
虽然S半导体自建了HPC集群,为EDA软件提供资源支持,在设计初期,算力资源充足,甚至有很多空闲,但随着项目推进,本地集群已无法满足突发算力需求,导致大量任务排队,影响研发效率。
在业内,本地集群算力不足时补充公有云算力资源并不是一种新的解决方案思路,S半导体的技术团队也想到了利用公有云的弹性和可扩展性。经过团队的探索及外部供应商的助力,芯片研发的效率得到了保障,但算力成本水涨船高。
于是,他们再次萌生了寻找新解决方案的念头。
03 不藏了,给你分析一下单月算力成本降了50%的秘密
MMCloud的效果让S半导体的研发团队感到满意:在运行MMCloud的第一个月,S半导体的算力成本就减少了50%。
每个产品在宣传的时候都喜欢用“降低XX成本,提高XX效率”这样的字眼,看得多了,这样的话就越来越像一句口号。所以,我们不如详细拆解一下S半导体算力降本50%背后的原因。
大规模集群管理,先降30%
在芯片研发工作中,时间线很重要。为了保证进度,研发工程师通常会选择比实际预估偏大的机型来运行作业,每个作业的运行时间不同,大量任务并发时,就会出现30%的时间已经运行完大部分作业,而剩下的70%长尾时间运行完的机器只能空置,造成了资源浪费。
MMCloud可以稳定调度大规模小机型集群,将任务分散在大规模小机型上,即便依然有70%的长尾时间,所需要的成本比之前降低了30%。
算力碎片整理,高并发小任务降20%
那70%长尾时间里空闲的算力资源是否还能再利用?既然要降本,就要做到极致节约。
MMCloud的WaveRider能力支持智能选配适合的资源,当工程师继续提交高并发小任务时,MMCloud能自动寻找当前空闲的机器来运行任务,这样70%长尾时间的碎片化算力资源也能被充分利用起来,将成本再次降低20%。
机型动态调整,大任务成本降50%
正如前面所说,大任务运行过程中会存在波峰低谷,工程师往往很难预估大任务所需的真实算力资源,为了保证任务顺利运行,他们通常会按照波峰算力资源来选择大机型,这样在算力低谷期就存在大量浪费。
MMCloud支持机型动态调整,通过对运行中的作业进行实时监控,及时发现算力的变化,并调整机型,哪怕是运行中的作业也可以随时封装成一个带时间戳的数据集,实现了迁移到更适配的机型上也可恢复、可回滚、可迁移、可复制的功能。
04 通过精细化调度做到极致降本增效
随着半导体行业红利的逐渐消失,粗放式的研发模式已经落后于时代,对于S半导体来说,通过算力的“消费降级”实现了更精细化的调度管理,最终获得的是极致的性价比。
MMCloud深耕混合云算力调度,通过精细化调度提供本地集群与云端资源的统一管理、统一调度、统一展示,满足大规模突发算力需求,且算力弹性伸缩、按需使用。
拥抱新技术的团队已经拿起了新地图,向着新大陆前进了。