刚刚,黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元

简介: 今天在刚刚结束的GTC 2018上,英伟达CEO黄仁勋说两件大事,一是发布了迄今最大的GPU,二是暂定自动驾驶暂停研发。随后英伟达股价下跌3.8%。GPU正在成为一种计算范式,但本质性突破乏善可陈,教主一路回顾过去创下的纪录,而鼎盛之下,衰退的迹象,似乎已经潜藏。

黄仁勋在熟悉的背景音乐中上场,GTC今年已经是第十年了。

称不上激昂,但显然迫不及待要分享。不是首先揭幕万众期待的新品,而是回归初心——黄仁勋说,图形技术是GPU的核心驱动力,是虚拟现实的根本,在各种各样的领域,我们想将信息和数据可视化,形成了R&D预算,由此也构建了巨大的市场。

重现逼真图像是计算机图形学一直以来的追求,要呈现一幅美丽的图像,40年来,GPU渲染一幅图的时间,从几小时降到了几秒,而且图像的清晰度增加到了4K。

接着,黄仁勋回顾了各种技术,光的反射、散射、漫射、阴影……以及要渲染出种种质感相应的技术。

接着,展示了一段《星球大战》视频的演示,重点是逼真效果的实时Ray Tracing,各种表面的光线反射,每当一束光线遇到一个表面,都要决定要反射还是被吸收,什么角度反射,被吸收多少程度,整个环境中到处都是表面,每一个都需要渲染……这些需要庞大的计算量,因此动画公司才需要超级计算机来计算这些效果。

十年技术成果,首次将实时光线跟踪技术推向商业市场

而英伟达一台DGX-Station就够了。

6ef6fb569d4a0321ee4adc66ce93d46ee9414c4f

于是,第一个宣布——RTX Technolgy,这是英伟达十年技术成果,也是Ray Tracing首次在这种规格上,全部实时实现。黄仁勋说,这是首次将实时Ray Tracing带向商业市场。感谢GPU,感谢深度学习。

英伟达推出的Quadro GV100 GPU将该公司最近发布的RTX光线跟踪技术引入工作站。英伟达的RTX光线追踪技术是软件和硬件的组合,允许应用程序生成实时光线追踪效果。

Quadro GV100配备32GB内存,与Tesla V100有相同的底层设计。GV100可以提供高达7.4 TeraFLOPS的双精度和14.8 TeraFLOPS的单精度计算。英伟达表示这个显卡还可以提供高达118.5 TeraFLOPS的深度学习性能。

Quadro GV100还支持NVLink 2互连技术,可以将这两个设备配对在一起。总共64GB的HBM2内存,10,240个CUDA内核和236个张量内核整合到一个工作站中。

7d07af3f87d7b42f3217cf67850c52442385cb3c

电影大片完成后,要得到逼真效果,“CPU渲染一帧10小时,”黄仁勋说:“使用GPU要快很多,而且更重要的是,能省钱——大家都知道了,你买的GPU越多,你省的钱越多。”现在这已经是常识了。

全球最大GPU,核弹轰炸!!!

接着,也是全场最重要揭幕了全球最大GPU——Quadro GV100,这是一个GPU工作站,2个GV100,使用NVLink相连,形成一个完整的工作站,软件感觉不到切换。

d67dabc9bd4b83cffde3f0326abd886bd14e1be1

VIDIA TESLA V100 32GB,SXM3

8481c8f592b7f349aa84a1de5c171db681516edf双板总计16块GPU,总计512GB HBM2 存储
8481c8f592b7f349aa84a1de5c171db681516edf 每块GPU板由8块NVIDIA Tesla V100组成
8481c8f592b7f349aa84a1de5c171db681516edf 总计12 NVSwitch 连接
8481c8f592b7f349aa84a1de5c171db681516edf 高速互连,2.4 TB/秒对分带宽。
8481c8f592b7f349aa84a1de5c171db681516edf 8 EDR 无线带宽 / 100 GbE 以太网
8481c8f592b7f349aa84a1de5c171db681516edf 1600 Gb/秒双向带宽和低延迟。
8481c8f592b7f349aa84a1de5c171db681516edf PCIE Switch Complex
8481c8f592b7f349aa84a1de5c171db681516edf 2个英特尔Xeon Platinum CPUs
8481c8f592b7f349aa84a1de5c171db681516edf 1.5 TB系统内存
8481c8f592b7f349aa84a1de5c171db681516edf 双10/25 GbE 以太网
8481c8f592b7f349aa84a1de5c171db681516edf 30 TB NVME SSDS内部存储

这个全球最大的GPU有多大?感受一下:

普通GPU(你能看出型号吗?是N粉就说!)

ef2201226450bf5471a5c3eccf2d1794e6c0e5fc

这是最大GPU:

689579f4cb87acda9bed44aed48963fd5137d9bc

相比庞大繁重的CPU机架,使用英伟达RTX Quadro GV100,14-Quad-GPU服务器,“省下成千万上亿美元”。

99318836ebb0ba28c5aad537c9db1491251881f1

新系统旨在允许开发人员扩大其神经网络的规模。DGX-2具有12个NVSwitch,每个NVSwitch的特点是在台积电12nm FinFET工艺上制造了120亿个晶体管。每个交换机都具有18个8位NVLink连接。IBM已经宣布将于2019年推出采用NVLink 3.0的Power9系统,因此我们预计NVSwitch将利用这种互补互连。

太美了,太性感了,太美了。

黄仁勋掩饰不住沉醉。

DGX-2专门为深度学习,而生一天半就完成了。

如今AI研究员使用AI设计/发现AI,实验的规模和数量都不断增长。更多的实验、更多的数据,DGX-2推出的时机不能在好了。

价格?

39.9万美元。

加倍Tesla V100内存

下面简单介绍其他宣布。

特斯拉V100采用了迄今为止生产量最大的单模芯片。采用台积电12纳米FFN工艺制造的815毫米2 伏特晶体管,使用了210亿个晶体管,几乎是全分划板的尺寸。GPU包装了5120个用于AI工作负载的CUDA核心,虽然它具有足够的处理能力,但英伟达已经使用额外的16GB HBM2内存支持该卡。英伟达表示,更强大的32GB内存可以在内存受限的HPC工作负载中实现双倍的性能。

NVSwitch拓扑将16个GPU连接在一起,形成一个具有统一内存空间的统一内核单元,从而创建Jensen吹捧为“世界上最大的GPU”的内容。该系统共有512GB HBM2内存,可提供高达14.4TB / s的吞吐量。它共有81,920个CUDA内核。

GPU接受程度前所未有,形成全球计算范式

接着,黄仁勋表示,英伟达做的最好决定之一,是这些年来,让GPU越来越通用,在不损失计算机图形学性能的前提下,将GPU导向深度学习。然后,引爆点到来,现在,GPU已经成为广为接受的一种计算范式,全世界有100万GPU工程师,GTC成为全球会议,cuDNN 800万次下载,一大半都发生在去年一年,而英伟达10年前就开始提供。

GPU接受程度前所未有,然而,这还不够。

我们还需要更大的计算机,更快的计算机。加州理工大学要模拟一个项目,需要7天;要模拟一个艾滋病模型,需要3个月。过去5年,GPU增速25倍,远远超出摩尔定律。我们正处于超级摩尔定律时代,而这一趋势也将持续。

接着是教主的自豪/自傲时间,英伟达基本上每年都推出新架构,与软件工程师合作保持套件更新。总之,说道这里,教主表示,祝贺John Hennessy和David Patterson获得2017年的图灵奖,“John的体系结构演讲精彩非凡——但是,我的演讲很简单,”黄仁勋说,没错,英伟达在高性能计算(HPC)方面,也(买越多越)省钱!

要让医生/医院更换现有基础设施,需要30年。等不了这么久,怎么办?有没有办法利用现有技术,在改动不大的前提下,给予医生更大的智能能力。

066c1685285ddbee58779c3ef8be8fb4b1b4a87d

英伟达医疗图像超级计算机Clara应运而生。接入现有的医疗设备,比如超声波检测仪,就能将整套流程全部升级——使用深度学习,在原来的黑白图像上实时渲染出颜色,分层、分区域,并且变为3D图像,后期各种计算机技术,提升图像质量,医生的检测能够变得更加敏锐清晰。

目前,英伟达的Clara计划已经与数十家公司,初创企业为主,构建了生态。可以想象,将英伟达的超级医疗图像计算机部署到医院,又打开了一大市场。

推理很难:公布TensorRT 4.0,以及Kubernetes on GPU

讲到这里,黄教主已经一个人说了1个多小时。

“Plaster。”说完这个词,他停了一会,歇一口气。

这也是教主自己发明的词,希望向世人传达的GTC第二大要点。

这个词是关于推理(inference)。推理很难,精度、通量……各种变量要考虑。如何让推理变得更好?这里,当然是英伟达的高性能神经网络推理引擎TensorRT的更新——TensorRT 4.0发布,用于在生产环境中部署深度学习应用程序,应用有图像分类、分割和目标检测等,可提供最大的推理吞吐量和效率。TensorRT是第一款可编程推理加速器,能加速现有和未来的网络架。TensorRT 4.0实现全栈连接。

与CPU相比,NVIDIA TensorRT 4 现在可以将AI任务的参数加速200倍,适用于图像分类、分割、物体检测、语音识别、机器翻译等应用。

bb46e7ed9a3d8a46af4ce6155429fd2d48184cc1

此外,还有英伟达GPU Kubernets。

Kubernetes借助NVIDIA GPU,开发人员现在可以即时地将GPU加速的深度学习和HPC应用程序部署到multi-cloud GPU群集中。

“人生完整了。”黄仁勋说。

暂停无人车研发,英伟达股价下跌3.8%

一口气发布这么多款产品,黄教主可谓是蛮拼的,但其实这样做也是英伟达不得不为之的事情。

值得一提,在黄仁勋演讲接近尾声的时候,英伟达股票下跌了3.8%。

“我们要暂定无人驾驶的研发。”黄仁勋说。

Uber自动驾驶致死事故显然对英伟达造成了巨大的影响。根据公开资料,Uber从2016年首次部署沃尔沃SC90 SUVS测试车队以来,一直使用英伟达的计算技术。

这让人想起了当年特斯拉车祸时,与特斯拉分手的Moibleye——但不同的是,Mobileye并没有要停止研发,而是迅速搭上了其他公司,而后被英特尔以153亿美元的高价收归旗下。

英伟达目前没有表示具体研发计划暂定的时间。

981f52708ff3d8263cd3d64492de6803ba11f3d1

虽然现实世界中停止路测,但英伟达还推出了一个测试自动驾驶汽车的新系统DRIVE Con stellation,这是一款基于云计算的平台,将使用逼真模拟测试驾驶场景。

系统在两台服务器上运行。第一台服务器支持Nvidia DRIVE Sim,它一款模拟自动驾驶汽车各种传感器(包括其摄像头,激光雷达和雷达)的软件。第二台服务器包含Nvidia DRIVE Pegasus AI,它将处理收集的数据,就好像它来自道路上自驾车的传感器。

前压后赶,英伟达衰相已现?

其次,也不要忘记英伟达面临的众多对手。

首先是英特尔。英特尔去年宣布发布Nervana神经网络处理器(NNP)系列芯片,代号为Lake Crest。这款芯片的强大之处在于,它由“处理集群”阵列构成,处理“活动点(flexpoint)”的简化数学运算。这种运算相对于浮点运算所需的数据量更少,性能号称提升10倍。

8a0c7c50ab69e59a43ea3d293e8dd4175e5b558d

不过,Nervana系列芯片宣称2017年年底量产,但直到现在还一直跳票;而且,英伟达已经在游戏、深度学习、自动驾驶等领域建立起自己的芯片生态圈,“护城河”相当宽。但是,就像黄教主经常揶揄CPU的摩尔定律一样,反过来看,GPU并没有本质上的突破,GPU的现在优势可能很容易就被性能一日千里的神经网络芯片超越,英伟达的护城河很快就会被攻破。

跟英特尔一起攻城的还有赛灵思。

今年3月20日,赛灵思推出ACAP(Adaptive Compute Acceleration Platform,自适应计算加速平台),ACAP是一个高度集成的多核异构计算平台,它的核心是新一代FPGA架构,能根据各种应用与工作负载的需求从硬件层对其进行灵活变化。ACAP的灵活应变能力可在工作过程中进行动态调节,它的功能将远超FPGA的极限。

93004128e523836ba069ae5eb0ef16928ce46044

赛灵思新任CEO Victor Peng在接受新智元采访时表示,GPU虽然在某些方面比CPU能处理的更好,但也不能适应所有的情况,因此现在更多需要的是异构计算。尤其是在人工智能时代,赛灵思也想通过自身在异构计算方面优势来实现对英伟达以及英特尔的赶超。

除了前面两个大块头,AI芯片创业公司也让这片市场从蓝海变成红海。中国有寒武纪、地平线、深鉴科技,英国有哈萨比斯投资的Graphcore,美国也有多家AI芯片初创公司。这些公司针对的是不同的应用场景,每一家都有可能抢走英伟达的细分市场。

不过,最能给英伟达造成威胁的,还应当是带头大哥谷歌。

虽然谷歌的TPU只是用在谷歌内部,但单从硬件性能看,TPU已经超越英伟达GPU。


原文发布时间为:2018-03-28

本文作者:闻菲、张乾、肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:刚刚,黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
8月前
|
机器学习/深度学习 异构计算 Python
Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)
对于深度学习初学者来说,JupyterNoteBook的脚本运行形式显然更加友好,依托Python语言的跨平台特性,JupyterNoteBook既可以在本地线下环境运行,也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者,更是让JupyterNoteBook的脚本运行形式如虎添翼。 本次我们利用Bert-vits2的最终版Bert-vits2-v2.3和JupyterNoteBook的脚本来复刻生化危机6的人气角色艾达王(ada wong)。
Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)
|
5月前
|
人工智能 自动驾驶 vr&ar
探索GPU算力平台的创新应用:从游戏到自动驾驶的跨越
【8月更文第5天】本文探讨了GPU(图形处理器)在现代计算中的角色转变,从最初的图形渲染到如今成为人工智能和高性能计算的重要组成部分。我们将通过几个具体的案例研究,包括游戏渲染、虚拟现实(VR)以及自动驾驶系统,来展示GPU是如何推动这些领域的进步和发展。
102 1
|
5月前
|
机器学习/深度学习 人工智能 并行计算
GPU算力平台:数字化转型的核心驱动力
【8月更文第5天】随着人工智能(AI)、大数据分析以及高性能计算需求的不断增长,图形处理器(GPU)因其卓越的并行计算能力而成为加速这些领域的关键技术。GPU算力平台不仅能够显著提升计算效率,还能帮助企业更好地处理大规模数据集,支持复杂的机器学习模型训练,并促进实时数据分析。本文将探讨GPU算力平台在数字化转型中的核心作用,并通过示例代码展示其在实际应用中的优势。
327 1
|
5月前
|
机器学习/深度学习 并行计算 调度
构建高效GPU算力平台:挑战、策略与未来展望
【8月更文第5天】随着深度学习、高性能计算和大数据分析等领域的快速发展,GPU(图形处理器)因其强大的并行计算能力和浮点运算速度而成为首选的计算平台。然而,随着模型规模的增长和技术的进步,构建高效稳定的GPU算力平台面临着新的挑战。本文旨在探讨这些挑战、应对策略以及对未来发展的展望。
525 1
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
8月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
8月前
|
存储 人工智能 缓存
探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展
近年来,AIGC的技术取得了长足的进步,其中最为重要的技术之一是基于源代码的CPU调优,可以有效地提高人工智能模型的训练速度和效率,从而加快了人工智能的应用进程。同时,多GPU编程技术也在不断发展,大大提高人工智能模型的计算能力,更好地满足实际应用的需求。 本文将分析AIGC的最新进展,深入探讨以上话题,以及中国算力产业的瓶颈和趋势。
|
存储 人工智能 边缘计算
马斯克星链与芯事:30亿炸出卫星互联网革命,GPU算力创无限可能!
据最新消息,马斯克“千人上火星计划”又一次未能如愿。据不完全统计,他在星舰项目上投入至少30亿美元,总投入超过200亿人民币。然而,尽管投入巨大,星舰研发道路仍然充满坎坷。早在今年4月,运力超过150吨的“史上最强运力”火箭在发射后几分钟内就在夜空中崩裂解体。自4月首飞以来,SpaceX对星舰进行1000多次改进。在11月18日21点,星舰33台推进器完成检测,进入预发射状态。发射3分钟后,飞船与推进器成功分离,9分钟后按照预定程序关闭引擎。然而,就在SpaceX团队为这一重要里程碑庆祝时,二级火箭发生故障,导致飞船失去联系。虽然路透社将此次任务定义为“一次失败的发射”,但SpaceX团队和马
|
机器学习/深度学习 人工智能 异构计算
云端炼丹,算力白嫖,基于云端GPU(Colab)使用So-vits库制作AI特朗普演唱《国际歌》
人工智能AI技术早已深入到人们生活的每一个角落,君不见AI孙燕姿的歌声此起彼伏,不绝于耳,但并不是每个人都拥有一块N卡,没有GPU的日子总是不好过的,但是没关系,山人有妙计,本次我们基于Google的Colab免费云端服务器来搭建深度学习环境,制作AI特朗普,让他高唱《国际歌》。 Colab(全名Colaboratory ),它是Google公司的一款基于云端的基础免费服务器产品,可以在B端,也就是浏览器里面编写和执行Python代码,非常方便,贴心的是,Colab可以给用户分配免费的GPU进行使用,对于没有N卡的朋友来说,这已经远远超出了业界良心的范畴,简直就是在做慈善事业。
|
存储 机器学习/深度学习 缓存
探索大模型世界的多元算力:CPU、GPU与算存互连的复杂比较与重要性分析
据科技部新一代人工智能发展研究中心发布的报告显示,我国已发布79个参数规模超过10亿的大模型,几乎形成了百模大战的局面。在大模型研发方面,中国14个省区市都在积极开展工作,其中北京拥有38个项目,广东拥有20个项目。
1439 0