外媒称,「特斯拉Dojo是全球最先进的可扩展AI训练机器。」 有多先进呢? AI训练速度全球最快!
自研AI训练芯片,超算ExaPod算力全球最高!
在上周的AI日,特斯拉公布了为 Dojo 超级计算机打造的D1 芯片。 Dojo 是一种通过网络结构连接的分布式计算架构,特点包括:具有大型计算平面、极高带宽、低延迟和可扩展性极强。 D1 芯片采用 7纳米制造工艺,仅 645 平方毫米,包含 500 亿个晶体管、354 个训练节点,内部的电路长达17.7公里。 所有区域都用于机器学习训练和带宽,没有暗硅。 该芯片具有 CPU 级别的计算能力和灵活性, I/O 带宽是网络芯片的2倍。 处理能力达到每秒 1024 亿次。单芯片 BF16 精度下的算力高达362 TOPs,FP32算力则为22.6 TOPs。 最重要的是,D1芯片之间可以「无缝连接,无需任何胶水」。 利用这一特性,特斯拉将 25 个 D1 芯片组成了一个「训练模块」,再结合了 UI、电源和热管理,最终可以达到9 Petaflops的算力。接下来就是大招了! 集合120个训练模块,包含3000个D1芯片。
全球最快的AI训练计算机ExaPOD就诞生啦!其算力高达1.1 EFLOP,超过日本富士通。 而且,从理论上来说,Dojo的性能拓展可以无限扩张,没有上限。 为何特斯拉也要加入自研芯片大军?
其实,特斯拉在2019年就发布了一款名为 Full Self-Driving(FSD,全自动驾驶)的芯片。 Dojo项目负责人加内什·文卡塔拉马南(Ganesh Venkataramanan)介绍说,「人们对神经网络的速度和容量的需求是无止境的,马斯克也要求设计一台超高速训练计算机。」 于是,Dojo应运而生。 研发人员的目标是:实现最好的AI训练性能、更大更复杂的神级网络模型、组装出节能又划算的超算。 Dojo这个名字取得也很有深意。它在日语中的意思是「道场」,指冥想或练习武术的地方。 很明显,特斯拉研发超算的目的是解决自动驾驶的问题。Ganesh 也表示,超算将会用于训练包括Autopilot在内的的自动驾驶系统。 不过,除此之外,MIT研究员Lex Fridman认为,Dojo 训练系统还可运用到云服务中,未来三年,直接与亚马逊AWS、谷歌云竞争。 最后,特斯拉官方称,芯片还有很大的改进空间。
下一版 Dojo 中某些性能将提高 10 倍!