几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片

简介: 几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片

「同样是移植一个新的技术库,如果使用人力,我们需要一个 10 人左右的团队工作大半年,但借助 AI,我们只需要花几天时间运行几个 GPU 就能完成大部分工作。」


近几年,芯片设计成为 AI 落地的一个重要领域,谷歌、英伟达、三星、西门子等多家公司都已经计划或开始尝试在芯片设计中使用 AI。其中,同时在芯片设计和 AI 领域深耕多年的英伟达有着得天独厚的优势。在前段时间的 GTC 大会上,英伟达首席科学家、计算机架构大师 Bill Dally 介绍了他们在这方面取得的进展以及所使用的 AI 工具。

以下是 Bill Dally 在 GTC 大会上的介绍原文。


预测电压降


作为 AI 专家,我们自然希望利用 AI 来设计更好的芯片。我们有几种不同的方法:一是利用现有的计算机辅助设计工具(并融入 AI),例如我们有一个可以绘制 GPU 中用电位置的地图,它还可以预测电压网下降多少——电流乘以电阻压降,被称为 IR 压降。在传统的 CAD 工具上运行该流程需要三个小时。


这是一个迭代的过程,所以进行起来有点麻烦。我们想训练一个 AI 模型来处理相同的数据。我们做了一系列的设计来进行这样的操作,然后就可以输入电源图了,最后推断时间只需三秒。当然,如果算上特征提取的时间,我们要花 18 分钟,很快就能得到结果。


我们没有使用卷积神经网络,而是用到了图神经网络,这是为了估计电路中不同节点的开关频率。同样,我们能够比传统工具更快地获得非常准确的功率估计,并且只需很少的时间。




预测寄生参数(parasitics)


我特别喜欢的一项工作是用图神经网络预测寄生参数。之前这项工作要花费大量时间,因为以前的电路设计是一个迭代的过程,你要画一个原理图,就像左边这张图。但你不知道它的性能如何,直到设计师采用该原理图进行 layout,提取寄生参数,再运行电路仿真,才会发现设计可能不符合规格,才能知道电路的性能。



接下来,设计师就要修改原理图,并再次通过 layout 来验证电路的有效性。这是一个非常漫长、反复甚至不人道的劳动密集型工作。


现在,我们可以训练图神经网络来预测寄生参数,而无需进行 layout。因此,电路设计人员可以非常快速地进行迭代,而无需手动执行 layout 步骤。事实表明:我们的神经网络对寄生参数的预测非常准确。

布局、布线挑战


我们的神经网络还可以预测布线拥塞(routing congestion),这对于芯片 layout 至关重要。在传统的流程中,我们需要制作一个网表(net list),运行布局和布线过程,这可能非常耗时,通常需要几天的时间。但如果不这么做,我们就无法得到实际的布线拥塞并发现最初布局的缺陷。我们需要对其进行重构并以不同的方式布局 macro 以避免出现下图所示的红色区域(穿过该区域的电线过多,类似于交通堵塞)。



现在借助神经网络,无需运行布局和布线,我们就可以获取这些网表并使用图神经网络大致预测拥塞的位置,准确率也非常高。这种方法暂时还不完美,但它能够显示出存在问题的区域,然后我们就能采取行动并非常快速地进行迭代,而无需进行完整的布局和布线。

自动化标准单元迁移


以上方法都是在用 AI 评价人类已经完成的设计,但实际上更令人兴奋的是用 AI 来实际设计芯片。


我来举两个例子。第一个是我们称之为 NV cell 的系统,它使用模拟退火和强化学习来设计我们的标准单元库(标准单元库是底层电子逻辑功能的集合,例如 AND、OR、INVERT、触发器、锁存器和缓冲器 )。所以在每次技术迭代的时候,比如从 7 纳米迁移到 5 纳米,我们都会拥有一个单元库。我们实际上有成千上万个这样的库,它们必须用新技术重新设计,有一套非常复杂的设计规则。


我们借助强化学习来放置晶体管,但随之而来的可能是一堆设计规则错误,而这正是强化学习所擅长的。设计芯片就像一个雅达利游戏,但它是一个在标准单元中修复设计规则错误的游戏。通过强化学习检查和修复这些设计规则错误,我们基本上能够完成标准单元的设计。


下图显示的是该工具完成度为 92% 的单元库,没有设计规则或电气规则错误。这些单元中的 12% 比人类设计的单元要小。总的来说,在单元复杂性方面,该工具做得和人类设计的单元一样好,甚至比人类的还好。


这对我们有两大好处。一是节约大量劳动力。同样是移植一个新的技术库,如果使用人力,我们需要一个 10 人左右的团队工作大半年,但借助 AI,我们只需要花几天时间运行几个 GPU 就能完成大部分可以自动化的工作(92%),然后再由人来完成剩下的 8%。很多时候我们都能拿到更好的设计,所以这个方式不光节省人力,效果也比人类手工的结果好。



相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
0
0
0
0
分享
相关文章
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
43 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
278 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
301 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
85 8
弹性算力革命:企业级GPU云服务如何重构AI与图形处理的效能边界
企业级GPU云服务基于云计算技术,为企业提供强大的GPU资源,无需自购硬件。它广泛应用于人工智能、大数据、3D建模、动画制作、GIS及医疗影像等领域,加速深度学习训练、图形处理和科学计算,提升效率并降低成本。企业可按需获取计算资源,灵活应对业务高峰,优化成本结构,推动业务发展。
31 1
AI 场景下,函数计算 GPU 实例模型存储最佳实践
AI 场景下,函数计算 GPU 实例模型存储最佳实践
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
56 2

热门文章

最新文章