芯片研发设计单月算力成本降了50%怎么做到的?

简介: 面对芯片设计中日益严峻的算力挑战,S半导体经历了从自建HPC集群到结合公有云的尝试,导致成本上升。后来,采用MMCloud解决方案,首月即实现50%的算力成本降低。MMCloud通过大规模集群管理、算力碎片整理和机型动态调整实现精细化调度,帮助S半导体提升了研发效率并降低成本,展示了在行业寒冬中的降本增效策略。

据企查查的数据显示,2023年,平均每天有30家芯片企业在消失。

在政策、资本聚光灯下泡沫翻涌的半导体行业进入“冷静期”,2024年,有的项目已然退场,有的项目冉冉升起。

S半导体,一家位于中国上海的数字芯片创新企业,半年内连获两轮融资,第一款芯片也即将面世。在激烈的竞争中,他们率先卷出了“消费降级,体验升级”的新实践。

01 不能不面对的算力挑战

从上世纪五十年代手工绘制电路到如今的计算机辅助设计,集成电路(IC)设计的复杂性日益增加,芯片研发设计工具(EDA)对算力资源的精细化需求也逐渐凸显。

· 算力波动:在芯片设计的各个阶段,对算力的需求呈现出显著的波动性。

  1. 初步设计与仿真 - 在这个阶段,设计师使用EDA工具进行初步的电路设计和功能仿真,这通常需要中等规模的计算资源。
  2. 详细设计与优化 - 这个阶段需要进行更为复杂的仿真和分析,如时序分析、功耗分析和信号完整性分析,这些任务对算力的需求显著增加。
  3. 验证与回归测试 - 芯片设计完成后,需要进行大量的验证和回归测试来确保设计的正确性。这包括功能验证、时序验证和综合验证等。由于需要处理大量的数据和执行复杂的算法,这个阶段对算力的需求非常高。
  4. 物理设计与布局布线 - 在物理设计阶段,EDA工具将电路设计转换为可以在硅片上制造的布局和布线。这个过程需要处理大量的几何数据和执行复杂的优化算法,对算力的需求达到顶峰。

· 成本问题:算力的波动导致如果为了满足各阶段的算力需求而搭建更大的本地集群,前期的IT基础设施投入会很高,而且在算力低谷期还会存在大量的资源浪费。

· 管理复杂性:如果为了省成本考虑使用本地集群+云端算力混合模式,算力资源的管理变得更加复杂,企业就需要精通本地和云端的IT架构,以确保资源的有效利用。

02 本地+云,能解决问题吗?

来自S半导体研发部门的Kris说:“我们在日常研发过程中,每次前端回归验证(regression),EDA软件会产生2000并发以上的短时计算任务。”

虽然S半导体自建了HPC集群,为EDA软件提供资源支持,在设计初期,算力资源充足,甚至有很多空闲,但随着项目推进,本地集群已无法满足突发算力需求,导致大量任务排队,影响研发效率。

在业内,本地集群算力不足时补充公有云算力资源并不是一种新的解决方案思路,S半导体的技术团队也想到了利用公有云的弹性和可扩展性。经过团队的探索及外部供应商的助力,芯片研发的效率得到了保障,但算力成本水涨船高。

于是,他们再次萌生了寻找新解决方案的念头。

03 不藏了,给你分析一下单月算力成本降了50%的秘密

MMCloud的效果让S半导体的研发团队感到满意:在运行MMCloud的第一个月,S半导体的算力成本就减少了50%。

每个产品在宣传的时候都喜欢用“降低XX成本,提高XX效率”这样的字眼,看得多了,这样的话就越来越像一句口号。所以,我们不如详细拆解一下S半导体算力降本50%背后的原因。

大规模集群管理,先降30%

在芯片研发工作中,时间线很重要。为了保证进度,研发工程师通常会选择比实际预估偏大的机型来运行作业,每个作业的运行时间不同,大量任务并发时,就会出现30%的时间已经运行完大部分作业,而剩下的70%长尾时间运行完的机器只能空置,造成了资源浪费。

MMCloud可以稳定调度大规模小机型集群,将任务分散在大规模小机型上,即便依然有70%的长尾时间,所需要的成本比之前降低了30%。

截屏2024-05-07 11.19.07.png

算力碎片整理,高并发小任务降20%

那70%长尾时间里空闲的算力资源是否还能再利用?既然要降本,就要做到极致节约。

MMCloud的WaveRider能力支持智能选配适合的资源,当工程师继续提交高并发小任务时,MMCloud能自动寻找当前空闲的机器来运行任务,这样70%长尾时间的碎片化算力资源也能被充分利用起来,将成本再次降低20%。

场景二.png

机型动态调整,大任务成本降50%

正如前面所说,大任务运行过程中会存在波峰低谷,工程师往往很难预估大任务所需的真实算力资源,为了保证任务顺利运行,他们通常会按照波峰算力资源来选择大机型,这样在算力低谷期就存在大量浪费。

MMCloud支持机型动态调整,通过对运行中的作业进行实时监控,及时发现算力的变化,并调整机型,哪怕是运行中的作业也可以随时封装成一个带时间戳的数据集,实现了迁移到更适配的机型上也可恢复、可回滚、可迁移、可复制的功能。

WechatIMG1813.jpg

04 通过精细化调度做到极致降本增效

随着半导体行业红利的逐渐消失,粗放式的研发模式已经落后于时代,对于S半导体来说,通过算力的“消费降级”实现了更精细化的调度管理,最终获得的是极致的性价比。

MMCloud深耕混合云算力调度,通过精细化调度提供本地集群与云端资源的统一管理、统一调度、统一展示,满足大规模突发算力需求,且算力弹性伸缩、按需使用。

图片 1.png

拥抱新技术的团队已经拿起了新地图,向着新大陆前进了。

目录
相关文章
|
芯片 算法 异构计算
如何打破边缘端芯片算力有限的困局?阿里 AILabs 这么做!
在自研硬件上,和芯片厂商深度合作针对中低端芯片做出了特例优化,落地了手势识别、宠物检测和笔尖检测等业务。
3323 0
|
6月前
|
弹性计算 人工智能 调度
与时间赛跑:芯片研发设计场景算力解决方案
MMCloud通过提供本地和公有云资源的统一管理,为使用Synopsys、Cadence、Mentor等主流EDA软件的芯片研发设计企业提供全面的算力管理服务。
410 1
|
6月前
|
弹性计算 NoSQL 关系型数据库
还得是阿里云,在2024如此艰难的一年,百款产品直降,技术更优,规模更大,节省更多
还得是阿里云,在2024如此艰难的一年,百款产品直降,技术更优,规模更大,节省更多
|
传感器 人工智能 供应链
黑芝麻智能CMO杨宇欣:如何面对硬件成本瓶颈?
黑芝麻智能CMO杨宇欣:如何面对硬件成本瓶颈?
131 0
|
存储 人工智能 搜索推荐
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
331 0
|
机器学习/深度学习 Kubernetes 搜索推荐
突破百万亿参数规模,追求极致的效率和性价比:华人团队开源首个异构并行推荐系统训练框架Persia
突破百万亿参数规模,追求极致的效率和性价比:华人团队开源首个异构并行推荐系统训练框架Persia
198 0
|
机器学习/深度学习 数据采集 移动开发
阿里云E2能耗:阿里云双碳整体产品介绍|学习笔记(二)
快速学习阿里云E2能耗:阿里云双碳整体产品介绍。
阿里云E2能耗:阿里云双碳整体产品介绍|学习笔记(二)
|
传感器 运维 监控
阿里云E2能耗:阿里云双碳整体产品介绍|学习笔记(一)
快速学习阿里云E2能耗:阿里云双碳整体产品介绍。
阿里云E2能耗:阿里云双碳整体产品介绍|学习笔记(一)
|
机器学习/深度学习 数据采集 自然语言处理
千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE,极致压榨网络性能
今年以来,中文 NLP 圈陆续出现了百亿、千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」。但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型,提出的预训练模型「摩天」登顶了 CLUE 总排行榜以及下游四个分榜。
280 0
千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE,极致压榨网络性能
|
机器学习/深度学习 IDE Java
十倍速开发提效
> *概述:对`jetbrains`系列 IDE 使用技巧进行系统化梳理和整合* ## 背景 ### 目的 欲善其事,先利其器。对于研发同学,在日常的开发工作中,我们与之打交道最多的便是编程的IDE。能否高效和灵活的使用IDE,将对我们的工作效率起着举足轻重的作用。 研发同学在开发中最主要做的两件事分别是架构设计和编码,前者主要取决于大量的项目经验积累和个人的思考深度,也是
702 1
十倍速开发提效