超越英伟达V100,这家以色列公司发布了挑战GPU的AI训练芯片

简介: 6 月 17 日,以色列芯片公司 Habana.ai 发布了 Gaudi HL-2000,这是一款定制化 AI 处理器。该公司称,全新的 Gaudi 处理器性能超过了目前在训练神经网络任务中最为强大的英伟达 Tesla V100——而且性能是后者的近四倍。

昨天,在北京举行的人工智能大会(O'Reilly AI Conference)上,Habana 向我们详细介绍了新产品的特性。


ED20033C-D8FA-4713-8B86-4496734D234F.jpeg

Habana Labs 首席商务官 Eitan Medina 在活动中向我们介绍了 Habana 的强大技术。


在这块芯片之上,Habana 也推出了 PCIe 4.0 接口板卡,以及一台 8 处理器的服务器。Habana 表示,这些设备可以成为训练超大规模数据集的基础。


Gaudi 并不是 Habana 在人工智能芯片上的第一次尝试。这家芯片公司成立于 2016 年,在去年 9 月,Habana 曾推出名为 Goya 的人工智能推理芯片,并已拥有很多客户。而在去年 11 月,Habana 完成了价值 7500 万美元的 B 轮融资,英特尔是其领投方。


领先的推理芯片 Goya


去年 9 月,Habana 公司推出的 Goya 人工智能芯片着实吸引了一把眼球。其在 ResNet-50 上,四倍于英伟达 Tesla T4 的处理性能,两倍的能耗比,仅仅 1.01ms 的处理延迟让人们感受了 ASIC 的强大能力。


「我们在 2018 年 9 月发布了推理芯片 Goya,并于年底将产品推向用户。在九个月后的现在,这款产品仍然是在市场上领先的。」Habana Labs 首席商务官 Eitan Medina 表示。


6DA1CFC3-FFCC-4838-BAF9-4A73E4892528.jpeg

Habana 拿出了英伟达在 GTC 上经常使用的比较方式:与目前最强劲的 GPU 相比,8 块 Tesla V100 的算力相当于 169 个传统 CPU————而相同情况下只需要 3 块 Goya 计算卡就能完成任务。


为何在更小的功耗下,Habana 的芯片有着更强的机器学习算力?答案在于架构。「CPU 和 GPU 的架构是以解决和深度学习完全不同的任务为导向构建的,CPU 面向通用计算,GPU 面向图形处理,」Habana 首席商务官 Eitan Medina 介绍道。「在人工智能方面,GPU 的成功几乎是『偶然』的,因为它具有更高的并行度。然而如果你从零开始,观察神经网络的特性的话,投入足够精力,你就可以获得一个更好的架构。」这就是 Habana 正在做的事。


Goya 是一种采用 PCIe 4.0 接口的计算卡,双槽位,全高全长,可以直接兼容现有服务器的接口,带来更强算力。Habana 表示,目前该公司已经获得了 20 余个客户,这些公司正在评估这种新类型的芯片。


可以「无限扩展」的 AI 训练芯片 Gaudi


人工智能的训练任务需要使用大型数据集,让模型经过前向传播、反向传播不断更新权重,从而让算法展现出「智力」。在训练模型时我们需要着重考虑准确度,同时存在大量数据吞吐及并行化的运算。


而在深度学习的推断/预测时,模型通常只需要使用前向传播,延迟成为了关注的重点。


不同的需求意味着只有使用不同种类的芯片才能在两个方面都实现高效率。目前,人们通常使用 CPU 处理推断任务,GPU 用于训练,英伟达的 GPU 很长一段时间是不分训练和推理的,但现在也有了 Tesla T4 这样专攻推理的芯片。


Habana 很早意识到了这一点,所以其产品线分为推理和训练。


最近推出的 Gaudi 芯片专门用于深度学习模型的训练,采用台积电 16nm 制程。在 ResNet-50 模型的训练中,其每秒可以处理 1650 张图片(batch = 64)。在完整服务器系统条件下的对比中,同为 650 个处理器,Gaudi 的处理能力是英伟达 Tesla V100 的 3.8 倍。


CD611979-7A07-4B25-A877-B4C20AB3D932.png


这并不是 Gaudi 唯一的优势,Habana 花费大量时间介绍了其芯片使用以太网互联的优势。「我们认为芯片之间最好的连接方式是 RDMA,它最早只出现在 Infinite Band 中,现在已能用于标准的以太网环境中了。」Medina 表示。


Gaudi 是今天唯一的,可以在芯片里集成 RDMA 的芯片。而且 Gaudi 中集成了 10 个 100GbE 带宽的 RoCE RDMA 以太网端口。这意味着 Habana 的用户可以用常规以太网环境实现扩展。这非常特别,因为其它厂商都在用特殊的连接方式,而 Gaudi 使用的是通用的以太网环境。


A4E2B8B2-5FA1-4F16-BD39-38C95CECF6D3.png

相比之下,英伟达的 Tesla V100 只有 1 个 100 Gb RDMA Nic,还需要有 PCIE Switch 进行互连——而 Habana 的产品把网络端口集成在芯片内,可以实现更强的并行化。


并行处理就是在训练过程中把任务分解到每个处理器上,再通过高速网络把运算结果联系到一起。Habana 的芯片通过以太网链接可以实现树状结构的层级化,达到接近完美的吞吐效率。


「DGX-2 的 NVLink 端口扩展性有限,最大支持 16 块 GPU 的并行处理,而 Gaudi 可以支持对外的互联,做到几百块处理器的并行化。」Medina 说道。


0ADF392B-6F80-420E-8D02-4D4E797C02E3.jpeg

在大规模并行运算的情况下,Gaudi 可以实现 Tesla V100 接近四倍的性能。Habana 称,在单卡情况下 Gaudi 的处理速度也有 Tesla V100 的 2.7 倍,而功耗仅为后者的一半。


在 Gaudi 与 Goya 芯片推出之后,Habana 已经拥有了人工智能商业化芯片的完整解决方案。


「从零开始设计芯片」


Habana 的深度学习处理架构被称为 Tensor Processor Core(TPC),而 Goya 芯片中还集成了 GEMM 矩阵乘加单元,这可以让 Goya 处理不同类型的模型。


这家公司的开发者们认为,人工智能芯片要在计算能力和延迟上都表现完美,而以往出现在很多论文中「几分钟训练 ResNet」并不是真正能够应用在生产环境中的方式。


「在 ResNet-50 的训练上,批尺寸这一参数很重要。采用 GPU 训练通常需要很大的 batch size,而 Goya 可以用很小的 batch size 实现高效率训练,在计算时可以让它设置为 1、5 和 10,这样训练延迟也可以很低。」Eitan Medina 表示。


低延迟的体验对于自动驾驶等场景具有优势。而在云计算环境下,目前的 AI 云服务无法对单卡再做虚拟化分配,但 Goya 因为计算的延迟很低,可以把一张 Goya 卡分成 7 个部分分给用户,并保持高效率。这样意味着 Habana 的客户可以进一步提高利润,降低云服务价格。


由于目前的大多数深度学习模型都在 CPU 或 GPU 上完成训练,Habana 为客户提供了一套环境,可以帮助开发者快速部署产品。其软件名为 SynapseAI,支持 ONNX、MXNet、TensorFlow、Caffe2、PyTorch 等深度学习框架与模型交换格式。


「如果人们使用其他架构训练模型,将其部署在 Goya 的推理和预测平台上不会有任何问题。」Medina 称。


Habana 正努力帮助构建开源社区,因此也收到了一些回报。去年 facebook 开源的深度学习编译环境 Glow 就首发支持了 Habana 的芯片,此外,Linux 也已集成了 Goya 的驱动。


对于期待使用专用芯片处理人工智能任务的公司来说,Habana 提供的芯片可以带来最大的灵活度。


25785A9E-9369-4193-ACAE-0418D8BF9A97.jpeg


Habana 的愿景是成为人工智能芯片领域的领导者。这家公司目前已有 150 名员工,其中大多数为研发人员。公司在以色列、波兰两地成立了研究中心,另外在美国加州和中国也设有分支机构。


「训练 AI 模型所需的算力每年都以指数级增长,硬件设备必须满足这种迫切需求,并大幅提高生产力和可扩展性。凭借 Gaudi 的创新架构,Habana 可以带来业界最强的性能,结合标准以太网连接,实现无限的可扩展性,」Habana Labs 首席执行官 David Dahan 表示。「Gaudi 将打破人工智能训练处理器的现状。」


未来,Habana 计划每 9 个月推出一款新产品。明年这家公司即将推出基于 7nm 制程的新一代推理芯片。16C9736F-6283-4E56-95C1-D5D310C0C7D4.png



本文为机器之心报道,转载请联系本公众号获得授权

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
15天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
57 2
【AI系统】感知量化训练 QAT
|
15天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
41 1
【AI系统】训练后量化与部署
|
23天前
|
机器学习/深度学习 人工智能 语音技术
Fugatto:英伟达推出的多功能AI音频生成模型
Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
65 1
Fugatto:英伟达推出的多功能AI音频生成模型
|
14天前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
52 8
|
21天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
63 12
|
23天前
|
人工智能 自然语言处理 知识图谱
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快
英伟达提出nGPT(Normalized Transformer),通过单位范数归一化和超球面上的表示学习,显著提升了Transformer模型的训练速度和性能。实验显示,nGPT在处理4k长度序列时,训练速度比传统Transformer快10倍,且在多个下游任务中表现出色。论文地址:https://arxiv.org/pdf/2410.01131
36 12
|
18天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
23天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
46 0
|
24天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
41 0
|
2月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
197 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣