全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍

简介: 全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
E 级超算,每秒钟百亿亿次运算,1 后面跟 18 个零。

image.png

2018  年 6 月,美国能源部橡树岭国家实验室的工程师们发布了「Summit」超级计算机,超越神威 · 太湖之光成为了世界第一,它的理论峰值容量接近  200 petaflops——即每秒 20 万万亿次浮点运算,使用 IBM Power9 处理器和英伟达 Tesla V100 加速卡。

不过两年后,Summit 就被使用 Arm 架构的日本「富岳」超过,目前排名第二。


image.pngimage.png

image.png

顶级超算迭代的速度如此之快,但仍然无法比拟人们的需求。在服役短短的四年时间内,橡树岭实验室对超算服务的需求就已经超过了这台巨大机器的容量。

「Summit 算力会被超额认购四到五倍,」负责 ORNL 领先计算设施的 Justin Whitt, 说道。「这限制了使用它的进行研究项目的数量。」

现在,是时候讨论更快的超级计算机了。橡树岭国家实验室的下一个计划名叫 Frontier,完成后它将具有超过 1.5 exaflops 的峰值理论容量。

Frontier  的非凡之处并不在于它要比 Summit  强七倍以上——这个数字显然是令人惊叹的。更值得注意的是,它做到这一点只用了两倍的功率。这仍然是一个很大的功率——Frontier 预计将消耗  29 兆瓦,足以为加利福尼亚州库比蒂诺(苹果公司所在地)大小的城镇供电。但这是一个可控的数量。

「我们现在可以在很小的空间内塞进更多的计算机硬件,」Whitt  表示。「这些计算机机柜每个都与全尺寸皮卡一样重。」里面装满了 ORNL 的规格表所描述的「由高性能计算和 AI 优化的 AMD EPYC  处理器与 Radeon Instinct GPU 加速器驱动的高密度计算板卡,它们专为满足百亿亿次计算的需求而构建。」

建造一台具有这种能力的超级计算机已经够难了,新冠疫情也让事情更加具有挑战性。「供应链的问题其实很广泛,」Whitt 表示,许多对构建高性能超级计算机来说并不特殊的东西存在短缺。「它可能只是金属板或螺丝。」

供应链问题确实是  Frontier 将于 2022 年在另一台计划中的超级计算机 Aurora  之前投入运行的原因,后者将安装在伊利诺伊州的美国能源部阿贡国家实验室(Argonne National Laboratory,  ANL)。Aurora 是在 2018 年先上马的,但它的建设被推迟了,因为英特尔很难提供这台机器所需的处理器和 GPU。

在团队最初的规划中,Frontier 这台巨型机器将在 2021 年底之前交付,并在 2022 年全面投入使用。所以,它可以被称为世界上第一台百亿亿级超级计算机吗?

那要看每个人的定义了:「(日本的富岳超级计算机)实际上是在不同的基准实现了  2 exaflop 的混合精度计算,」田纳西大学的 Jack Dongarra 说,他是 Top500  名单背后的专家成员之一。他解释说,这些排名是基于涉及 64  位浮点计算的基准,此类计算多用于解决许多物理模拟所需的三维偏微分方程。「这是应用超级计算机的底线,」Dongarra  说。但他也指出,超级计算机越来越多地用于训练深度神经网络,在这方面 16 位精度就足够了。

还有一个特殊的例子「Folding@Home」,这是一个旨在模拟蛋白质折叠的分布式计算项目。几十万名玩家捐出了自己的 GPU,通过众源的方式,Folding@Home 超级计算机实现了超过 1 exaflop(每秒 1 百亿亿次浮点计算)的处理能力。

「我会称它为专用计算机,」Dongarra   说,每个人都可以参与完成这项工作,因为涉及到大量并行的计算。也就是说,每一台计算机可以独立执行所需的计算,它们之间几乎不需要进行网络通信。2020  年 3 月,Folding@Home 项目宣布:「我们已经跨越了 exaflop 的障碍!」

但如果坚持使用一般基准的话,也就是用于 Top500 排名的基准,世界上任何一台超级计算机都还没有资格成为百亿亿级计算机。Frontier 可能是第一台,或者说,它有望成为第一台已知的百亿亿级超级计算机。Dongarra 解释说,在 2021 年 6 月的 Top500 排名出炉之前,有传言说中国至少有一台或两台已经在百亿亿级运行的超级计算机。

Top 500 超算榜单半年更新一次,直到 11 月的榜单出炉,前几名没有新超算揭幕。Frontier 会不会被中国的超算截胡呢?

2020 年 1 月 2 日,《科学》杂志刊文展望了 2020 年可能成为头条的十大科学新闻,其中包括中国或建造全球首台 E 级超算。据公开报道,「天河 3 号」E 级超算验证机进展顺利。

image.png

今年  7 月,由国防科技大学研制,部署在国家超级计算天津中心的「天河」E 级计算机关键技术验证系统在国际 Graph500 排名中,获得 SSSP  Graph500(单源最短路径)榜单世界第一和 BIG Data Green  Graph500(大数据图计算能效)榜单世界第一的成绩。图计算在大数据和人工智能领域应用广泛,相比于 Top 500,Graph500  榜单更偏向与应用。

今年 12 月 12 日,天津中心和国防科技大学,联合数十家合作团队共同发布了「面向新一代国产 E 级超级计算系统的十大应用挑战」。

据介绍,新一代百亿亿次(E 级)高性能计算机的研发,是国家在新一代信息技术领域的重要部署,其自主化程度远高于其他超算平台,同时规模与性能也会大幅提升。

或许在明年,悬念就将揭晓。

参考内容:https://spectrum.ieee.org/exascale-supercomputinghttps://www.top500.org/lists/top500/2021/11/https://www.thepaper.cn/newsDetail_forward_13434752

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
134969 6
|
1月前
|
人工智能 芯片 异构计算
台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!
台积电董事长预见到未来15年内GPU性能每瓦提升1000倍,晶体管数量将破万亿,展示半导体行业激动人心的前景。这将增强GPU计算能力,但同时也带来制造工艺复杂性、散热管理和能效提升的挑战。3D集成技术有望解决部分问题,但需克服技术与经济障碍。
37 5
台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!
|
1月前
|
机器学习/深度学习 并行计算 TensorFlow
TensorFlow与GPU加速:提升深度学习性能
【4月更文挑战第17天】本文介绍了TensorFlow如何利用GPU加速深度学习, GPU的并行处理能力适合处理深度学习中的矩阵运算,显著提升性能。TensorFlow通过CUDA和cuDNN库支持GPU,启用GPU只需简单代码。GPU加速能减少训练时间,使训练更大、更复杂的模型成为可能,但也需注意成本、内存限制和编程复杂性。随着技术发展,GPU将继续在深度学习中发挥关键作用,而更高效的硬件解决方案也将备受期待。
|
1月前
|
人工智能 芯片 异构计算
GPU震撼发布:性能飙升,功耗惊人,液冷成新宠?
Blackwell推出新一代GPU,性能比H100提升5倍,浮点运算速度惊人,但最高1200W功耗需液冷散热。产品线包括B100、B200和GB200超级芯片,后者结合72核CPU,计算性能达40petaflops,内存384GB。新NVLink技术助力GB200构建NVL72系统,可处理27万亿参数的AI模型。
30 1
|
1月前
|
机器学习/深度学习 存储 弹性计算
阿里云GPU服务器价格多少钱?2024年阿里云GPU服务器价格配置及性能测评
2024年阿里云GPU服务器是一款高性能的计算服务器,基于GPU应用的计算服务,多适用于视频解码、图形渲染、深度学习、科学计算等应用场景。阿里云GPU服务器具有超强的计算能力、网络性能出色、购买方式灵活、高性能实例存储等特点。 阿里云提供了多种配置的GPU服务器,包括gn6v、gn6i、vgn6i-vws和gn6e等,这些服务器配备了不同型号的GPU计算卡、不同规格的内存和存储空间,可以满足不同用户的计算需求。同时,阿里云还为新用户提供了特惠价格,包年购买更是低至3折起,使得用户可以更加经济地购买到高性能的GPU服务器。
232 0
|
10月前
|
弹性计算 虚拟化 异构计算
阿里云GPU服务器价格表(AMD和Nvidia M40/P100/P4/V100)
阿里云GPU服务器价格表(AMD和Nvidia M40/P100/P4/V100)阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,阿里云百科分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表
250 0
|
12月前
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
168 0
|
存储 弹性计算 虚拟化
基于阿里云eRDMA的GPU实例大幅提升多机训练性能
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会,阿里云开发者社区观看入口正式开放,阿里云高级技术专家李伟男;阿里云弹性计算产品专家宋迪共同带来了题为《基于阿里云eRDMA的GPU实例大幅提升多机训练性能》的分享
基于阿里云eRDMA的GPU实例大幅提升多机训练性能
|
缓存 安全 前端开发
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
304 0
|
存储 算法 数据可视化
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
198 0