几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片

简介: 几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片

「同样是移植一个新的技术库,如果使用人力,我们需要一个 10 人左右的团队工作大半年,但借助 AI,我们只需要花几天时间运行几个 GPU 就能完成大部分工作。」


近几年,芯片设计成为 AI 落地的一个重要领域,谷歌、英伟达、三星、西门子等多家公司都已经计划或开始尝试在芯片设计中使用 AI。其中,同时在芯片设计和 AI 领域深耕多年的英伟达有着得天独厚的优势。在前段时间的 GTC 大会上,英伟达首席科学家、计算机架构大师 Bill Dally 介绍了他们在这方面取得的进展以及所使用的 AI 工具。

以下是 Bill Dally 在 GTC 大会上的介绍原文。


预测电压降


作为 AI 专家,我们自然希望利用 AI 来设计更好的芯片。我们有几种不同的方法:一是利用现有的计算机辅助设计工具(并融入 AI),例如我们有一个可以绘制 GPU 中用电位置的地图,它还可以预测电压网下降多少——电流乘以电阻压降,被称为 IR 压降。在传统的 CAD 工具上运行该流程需要三个小时。


这是一个迭代的过程,所以进行起来有点麻烦。我们想训练一个 AI 模型来处理相同的数据。我们做了一系列的设计来进行这样的操作,然后就可以输入电源图了,最后推断时间只需三秒。当然,如果算上特征提取的时间,我们要花 18 分钟,很快就能得到结果。


我们没有使用卷积神经网络,而是用到了图神经网络,这是为了估计电路中不同节点的开关频率。同样,我们能够比传统工具更快地获得非常准确的功率估计,并且只需很少的时间。




预测寄生参数(parasitics)


我特别喜欢的一项工作是用图神经网络预测寄生参数。之前这项工作要花费大量时间,因为以前的电路设计是一个迭代的过程,你要画一个原理图,就像左边这张图。但你不知道它的性能如何,直到设计师采用该原理图进行 layout,提取寄生参数,再运行电路仿真,才会发现设计可能不符合规格,才能知道电路的性能。



接下来,设计师就要修改原理图,并再次通过 layout 来验证电路的有效性。这是一个非常漫长、反复甚至不人道的劳动密集型工作。


现在,我们可以训练图神经网络来预测寄生参数,而无需进行 layout。因此,电路设计人员可以非常快速地进行迭代,而无需手动执行 layout 步骤。事实表明:我们的神经网络对寄生参数的预测非常准确。

布局、布线挑战


我们的神经网络还可以预测布线拥塞(routing congestion),这对于芯片 layout 至关重要。在传统的流程中,我们需要制作一个网表(net list),运行布局和布线过程,这可能非常耗时,通常需要几天的时间。但如果不这么做,我们就无法得到实际的布线拥塞并发现最初布局的缺陷。我们需要对其进行重构并以不同的方式布局 macro 以避免出现下图所示的红色区域(穿过该区域的电线过多,类似于交通堵塞)。



现在借助神经网络,无需运行布局和布线,我们就可以获取这些网表并使用图神经网络大致预测拥塞的位置,准确率也非常高。这种方法暂时还不完美,但它能够显示出存在问题的区域,然后我们就能采取行动并非常快速地进行迭代,而无需进行完整的布局和布线。

自动化标准单元迁移


以上方法都是在用 AI 评价人类已经完成的设计,但实际上更令人兴奋的是用 AI 来实际设计芯片。


我来举两个例子。第一个是我们称之为 NV cell 的系统,它使用模拟退火和强化学习来设计我们的标准单元库(标准单元库是底层电子逻辑功能的集合,例如 AND、OR、INVERT、触发器、锁存器和缓冲器 )。所以在每次技术迭代的时候,比如从 7 纳米迁移到 5 纳米,我们都会拥有一个单元库。我们实际上有成千上万个这样的库,它们必须用新技术重新设计,有一套非常复杂的设计规则。


我们借助强化学习来放置晶体管,但随之而来的可能是一堆设计规则错误,而这正是强化学习所擅长的。设计芯片就像一个雅达利游戏,但它是一个在标准单元中修复设计规则错误的游戏。通过强化学习检查和修复这些设计规则错误,我们基本上能够完成标准单元的设计。


下图显示的是该工具完成度为 92% 的单元库,没有设计规则或电气规则错误。这些单元中的 12% 比人类设计的单元要小。总的来说,在单元复杂性方面,该工具做得和人类设计的单元一样好,甚至比人类的还好。


这对我们有两大好处。一是节约大量劳动力。同样是移植一个新的技术库,如果使用人力,我们需要一个 10 人左右的团队工作大半年,但借助 AI,我们只需要花几天时间运行几个 GPU 就能完成大部分可以自动化的工作(92%),然后再由人来完成剩下的 8%。很多时候我们都能拿到更好的设计,所以这个方式不光节省人力,效果也比人类手工的结果好。



相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
25天前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
39 1
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
28 3
|
21天前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
|
27天前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第16天】北京大学张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可使攻击者通过特定数据样本误导AI诊断,引发误诊风险。此发现引起广泛关注,强调了医疗AI安全评估的重要性。
52 4
|
15天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
1月前
|
人工智能 调度 开发工具
xGPU来啦!免费GPU资源开发花样AI应用!
为了降低AI应用服务和推广的门槛,解决开发者面临的实际痛点,ModelScope社区推出 xGPU 服务,让大家能够免费使用高性能 GPU 资源,托管自己的AI应用服务。
|
2月前
|
人工智能 数据中心 芯片
【通义】AI视界|英特尔推出新一代AI芯片挑战英伟达
今日科技热点包括:OpenAI CTO 米亚·穆拉蒂宣布离职,Meta发布多功能Llama 3.2语言模型,扎克伯格因Meta的人工智能策略使个人资产突破2000亿美元,星纪魅族展示AI生态新品如Lucky 08 AI手机及智能穿戴设备,以及英特尔发布Xeon 6 CPU和Gaudi 3 AI加速器挑战英伟达市场地位。这些动态展现了人工智能领域快速发展的趋势及其对科技巨头的影响。
|
2月前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
50 3
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
245 1
|
16天前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。