首次英伟达Hopper基准测试

简介: 首次英伟达Hopper基准测试

640.png


又到了“机器学习奥林匹克”的时候了,如果你厌倦了一次又一次地看到Nvidia站在领奖台上,那太糟糕了。至少这一次,这个GPU强国加入了一个新的竞争者,它的Hopper GPU,其性能是其前任的4.5倍,预计将在几个月内推出。

但Hopper并不是唯一一个登上MLPerf推理v2.1领奖台的人。基于高通AI 100的系统也有不错的表现,还有其他新芯片、新型神经网络,甚至新的、更现实的测试方法。

“MLPerf到底是什么?” MLPerf是由行业组织MLCommons的成员商定的一组基准。这是首次尝试对计算机在训练和执行(推理)神经网络方面的能力进行比较。

在MLPerf的推理基准测试中,由CPU和GPU或其他加速器芯片组合而成的系统在多达六个神经网络上进行测试,这些神经网络执行各种常见功能-图像分类、对象检测、语音识别、3D医学成像、自然语言处理和推荐。这些网络已经接受了一组标准数据的训练,必须对他们以前没有接触过的数据进行预测。

640.png


Nvidia的这张幻灯片总结了整个MLPerf的成果。六个基准[左]在两种类型的计算机(数据中心和边缘)上在各种条件下进行测试[右]。

测试的计算机被分类为用于数据中心或“边缘”商业上可用的基于数据中心的系统在两种条件下进行了测试——模拟真实的数据中心活动,其中查询以突发方式到达,以及“离线”活动,其中所有数据都可以立即获得。

打算在现场而不是在数据中心工作的计算机MLPerf称之为边缘,因为它们位于网络的边缘——是在离线状态下测量的;好像它们正在接收单个数据流,例如来自安全摄像机的数据流;就好像他们必须处理多个数据流,就像一辆装有几个摄像头和传感器的汽车一样。

除了测试原始性能,计算机还可以在效率上进行竞争。比赛进一步分为“封闭”类别和“开放”类别,在“封闭”类别中,每个人都必须运行相同的“数学等价”神经网络,并满足相同的精度指标,在“开放”类别中,公司可以展示对标准神经网络的修改如何使他们的系统工作得更好。

在最严格条件下与最强大计算机的竞赛中,封闭数据中心集团,来自四家公司的装有人工智能加速器芯片的计算机展开了竞争:Biren,Nvidia,高通和Sapeon。(英特尔制作了两个没有任何加速器的参赛作品,以展示其CPU可以独立完成的任务。) 虽然在整个神经网络套件上测试了几个系统,但大多数结果都是为了图像识别而提交的,自然语言处理器BERT(变形金刚双向编码器表示的缩写)紧随其后,使这些类别最容易比较。一些基于Nvidia-GPU的系统在整套基准测试中进行了测试,但参与其中的工程师表示,即使是执行一个基准测试也需要一个多月的时间。

在图像识别试验中,初创公司Biren的新芯片BR104表现良好。与该公司的合作伙伴浪潮(Inspur)一起建造的八加速器计算机每秒钟可以处理424,660个样本,是第四名的测试系统,落后于高通云AI 100的18个加速器,以及Nettrix和H3C的两个Nvidia A100的研发(R&D)系统,每个系统都有20个加速器。

但是Biren真正展示了它在自然语言处理方面的能力,在最高精度版本的BERT上击败了所有其他四加速器系统至少 33%,在八加速器系统中甚至领先更多。

另一个突出的例子是基于两个即将发布的Xeon Sapphire Rapids CPUs的英特尔系统,没有任何加速器的帮助,击败了使用两个当前代Xeon和一个加速器的机器。

这种差异部分归因于Sapphire Rapids的高级矩阵扩展,这是一种在每个CPU内核中工作的加速器。Sapeon展示了两个装有不同版本的Sapeon X220加速器的系统,仅在图像识别方面进行了测试。在这一点上,两者都轻松击败了其他单加速器计算机,除了Nvidia的Hopper,它完成了六倍的工作。

640.png


拥有多个GPU或其他人工智能加速器的计算机通常比只有一个加速器的计算机运行得更快。但在每个加速器的基础上,Nvidia即将推出的H100几乎击败了它。

事实上,在相同配置的系统中,Nvidia的Hopper在每个类别中都名列前茅。与它的前辈A100 GPU相比,Hopper在每个加速器的基础上至少快1.5倍到4.5倍,具体取决于测试中的神经网络。Nvidia加速云计算产品营销总监称:H100真的带来了巨大的成功,我们的工程师把它打得落花流水。Hopper的秘密是一个叫做变形金刚引擎的系统。它是一类神经网络,包括MLPerf推理基准BERT中的自然语言处理器。transformer引擎旨在通过调整每层神经网络中计算的数字的精度,使用达到准确结果所需的最小值来加快推理和训练。这包括使用8位浮点数的修改版本进行计算。(这里有一个更完整的降低精度机器学习的解释。) 因为这些结果是对MLPerf基准的第一次尝试,随着工程师们发现如何充分利用新芯片,预计H100和A100之间的差距将会扩大。

这是有先例的。通过软件和其他改进,自2020年5月推出以来,工程师们已经能够不断加快A100系统的速度。Salvator表示,预计未来MLPerf的效率基准将获得H100的结果,但目前该公司专注于看看他们可以从新芯片中获得什么样的性能。

在效率方面,基于高通云AI 100的机器让自己感到自豪,但这是在一个比性能竞赛小得多的领域。(MLPerf代表强调,效率测试和性能测试的计算机配置不同,因此比较为相同目的配置的系统的性能是公平的。)在数据中心系统的离线图像识别基准测试中,高通在每焦耳消耗可识别的图像数量方面名列前三。

它们的效率之争更加激烈了。高通以99%精度的版本拔得头筹,但在99.99%精度的任务中输给了英伟达A100系统。在这两种情况下,竞争都很激烈。

edge系统的图像识别也是如此,高通在大多数情况下处理数据流的时间不到1毫秒,并且经常使用不到0.1焦耳的能量,因此几乎占据了所有的榜首。

Nvidia的Orin芯片将在6个月内推出,最接近高通的结果。同样,Nvidia比BERT更好,使用更少的能源,尽管它仍然无法匹配高通的速度。

MLPerf的“开放”部门进行了许多工作,但更有趣的结果之一是公司如何展示“稀疏”网络的性能和效率。这些方法采用一个神经网络并对其进行删减,删除对产生结果贡献很小或没有贡献的节点。

理论上,更小的网络可以运行得更快、更高效,同时使用更少的计算和内存资源。例如,初创公司Moffett AI展示了三台计算机使用其用于稀疏网络的Antoum加速器架构的结果。

莫菲特测试了这些系统,这些系统旨在用于图像识别和自然语言处理的数据中心。在图像识别方面,该公司的商用系统每秒处理31,678个样本,其即将推出的芯片每秒处理95,784个样本。

作为参考,H100每秒达到95,784个样本,但Nvidia机器正在处理完整的神经网络,并达到了更高的精度目标。

另一家专注于稀疏性的公司Neural Magic展示了将稀疏性算法应用于神经网络的软件,以便它们在商用CPU上运行更快。

该公司表示,其算法将一个版本的BERT的大小从1.3GB减少到约10MB,并将吞吐量从每秒10个样本增加到1000个。

最后,位于特拉维夫的Deci公司使用了一种被称为自动神经架构构建技术(AutoNAC)的软件,生产了一种针对AMD CPU进行优化的BERT版本。使用大小为参考神经网络三分之一的模型,最终网络的吞吐量提高了六倍以上。

超过7,400项测量涵盖了一系列类别,还有更多需要解开的谜团。

你可以在MLCommons上随便看看。


推理:数据中心v2.1 结果https://mlcommons.org/en/inference-datacenter-21/系统硬件配置详细参数

640.png



640.png

640.png

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
弹性计算 Go 数据安全/隐私保护
开年王炸!三分钟搭建雾锁王国联机服务器
薪谷王国已经陷入沉沦。出于对魔法力量的贪念,你的祖先们释放了一种吞噬世界的疫病。如何在这个开放世界中自由选择前进的方向,如何塑造自己的命运?这趟旅程,邀你来探索。花上三分钟,使用阿里云计算巢一键搭建好云服务器,拉上你的搭子一起冲。
7058 22
开年王炸!三分钟搭建雾锁王国联机服务器
|
存储 监控 文件存储
存储之外,还有什么?云计算对象存储服务OSS深度洞察
存储之外,还有什么?云计算对象存储服务OSS深度洞察
1395 0
|
2月前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
497 140
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
11月前
|
存储 人工智能 并行计算
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
KTransformers 是由清华大学和趋境科技联合推出的开源项目,能够优化大语言模型的推理性能,降低硬件门槛。支持在仅24GB显存的单张显卡上运行671B参数的满血版大模型。
3133 8
KTransformers:告别天价显卡!国产框架让单卡24G显存跑DeepSeek-R1 671B大模型:推理速度飙升28倍
|
存储 Shell 开发工具
查看git 的远程地址
在Git中,你可以通过几种不同的命令来查看远程仓库的地址。以下是一些常用的方法: ### 1. 使用`git remote -v`命令 这是查看远程仓库地址最常用的命令。它会列出所有远程仓库的名称(如`origin`)以及对应的URL(包括fetch和push的URL,如果它们不同的话)。 ```bash git remote -v ``` 输出示例: ``` origin https://github.com/username/repo.git (fetch) origin https://github.com/username/repo.git (push) ``` ###
2854 12
|
分布式计算 Cloud Native 物联网
云原生应用的应用场景
云原生应用的应用场景
678 0
|
人工智能 算法 机器人
Github上5个实用的ChatGPT仓库
Github上5个实用的ChatGPT仓库
564 0
|
Ubuntu 虚拟化 Windows
如何优雅的实现主机与虚拟机文件共享?
如何优雅的实现主机与虚拟机文件共享?
555 0