GPU震撼发布:性能飙升,功耗惊人,液冷成新宠?

简介: Blackwell推出新一代GPU,性能比H100提升5倍,浮点运算速度惊人,但最高1200W功耗需液冷散热。产品线包括B100、B200和GB200超级芯片,后者结合72核CPU,计算性能达40petaflops,内存384GB。新NVLink技术助力GB200构建NVL72系统,可处理27万亿参数的AI模型。

Blackwell的新一代GPU。它不仅在性能上实现了质的飞跃,而且在能耗优化上也做出了显著改进。据悉,Blackwell的最高规格芯片在浮点运算速度(FLOPS)上比前代H100快了惊人的5倍!这样的性能提升,无疑将为AI的发展带来强大的动力。

image.png

这是因为Blackwell的功耗也是相当惊人的,最高可达1200W!在这样的功耗下,传统的风冷系统可能难以满足散热需求,而液冷则成为了更为理想的选择。

Blackwell系列包括了B100、B200和Grace-Blackwell Superchip(GB200)。其中,GB200超级芯片的性能尤为强悍,它将72核Grace CPU与Blackwell GPU结合,计算性能高达40petaflops,内存容量也达到了384GB。

Blackwell的新一代NVLink连接方案,使得性能大幅提升。GB200构成了Nvidia NVL72机架级AI系统的核心,这款系统使用NVLink交换设备将36个GB200拼接成一个整体,能够处理高达27万亿个参数的大语言模型。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
4天前
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
134707 6
|
4天前
|
机器学习/深度学习 并行计算 TensorFlow
TensorFlow与GPU加速:提升深度学习性能
【4月更文挑战第17天】本文介绍了TensorFlow如何利用GPU加速深度学习, GPU的并行处理能力适合处理深度学习中的矩阵运算,显著提升性能。TensorFlow通过CUDA和cuDNN库支持GPU,启用GPU只需简单代码。GPU加速能减少训练时间,使训练更大、更复杂的模型成为可能,但也需注意成本、内存限制和编程复杂性。随着技术发展,GPU将继续在深度学习中发挥关键作用,而更高效的硬件解决方案也将备受期待。
|
4天前
|
人工智能 芯片 异构计算
台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!
台积电董事长预见到未来15年内GPU性能每瓦提升1000倍,晶体管数量将破万亿,展示半导体行业激动人心的前景。这将增强GPU计算能力,但同时也带来制造工艺复杂性、散热管理和能效提升的挑战。3D集成技术有望解决部分问题,但需克服技术与经济障碍。
28 5
台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!
|
4天前
|
机器学习/深度学习 存储 弹性计算
阿里云GPU服务器价格多少钱?2024年阿里云GPU服务器价格配置及性能测评
2024年阿里云GPU服务器是一款高性能的计算服务器,基于GPU应用的计算服务,多适用于视频解码、图形渲染、深度学习、科学计算等应用场景。阿里云GPU服务器具有超强的计算能力、网络性能出色、购买方式灵活、高性能实例存储等特点。 阿里云提供了多种配置的GPU服务器,包括gn6v、gn6i、vgn6i-vws和gn6e等,这些服务器配备了不同型号的GPU计算卡、不同规格的内存和存储空间,可以满足不同用户的计算需求。同时,阿里云还为新用户提供了特惠价格,包年购买更是低至3折起,使得用户可以更加经济地购买到高性能的GPU服务器。
184 0
|
11月前
|
存储 算法 数据可视化
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减
163 0
|
12月前
|
缓存 安全 前端开发
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%
285 0
|
存储 算法 数据可视化
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可
188 0
|
存储 并行计算 搜索推荐
一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘(2)
一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘
322 0
|
存储 机器学习/深度学习 缓存
一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘(1)
一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘
339 0
|
弹性计算 异构计算 AI芯片
阿里云GPU服务器租用Nvidia和AMD性能价格详解
阿里云GPU服务器租用Nvidia和AMD性能价格详解,阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,阿里云百科分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表
418 0