刚刚,黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元

简介: 今天在刚刚结束的GTC 2018上,英伟达CEO黄仁勋说两件大事,一是发布了迄今最大的GPU,二是暂定自动驾驶暂停研发。随后英伟达股价下跌3.8%。GPU正在成为一种计算范式,但本质性突破乏善可陈,教主一路回顾过去创下的纪录,而鼎盛之下,衰退的迹象,似乎已经潜藏。

黄仁勋在熟悉的背景音乐中上场,GTC今年已经是第十年了。

称不上激昂,但显然迫不及待要分享。不是首先揭幕万众期待的新品,而是回归初心——黄仁勋说,图形技术是GPU的核心驱动力,是虚拟现实的根本,在各种各样的领域,我们想将信息和数据可视化,形成了R&D预算,由此也构建了巨大的市场。

重现逼真图像是计算机图形学一直以来的追求,要呈现一幅美丽的图像,40年来,GPU渲染一幅图的时间,从几小时降到了几秒,而且图像的清晰度增加到了4K。

接着,黄仁勋回顾了各种技术,光的反射、散射、漫射、阴影……以及要渲染出种种质感相应的技术。

接着,展示了一段《星球大战》视频的演示,重点是逼真效果的实时Ray Tracing,各种表面的光线反射,每当一束光线遇到一个表面,都要决定要反射还是被吸收,什么角度反射,被吸收多少程度,整个环境中到处都是表面,每一个都需要渲染……这些需要庞大的计算量,因此动画公司才需要超级计算机来计算这些效果。

十年技术成果,首次将实时光线跟踪技术推向商业市场

而英伟达一台DGX-Station就够了。

6ef6fb569d4a0321ee4adc66ce93d46ee9414c4f

于是,第一个宣布——RTX Technolgy,这是英伟达十年技术成果,也是Ray Tracing首次在这种规格上,全部实时实现。黄仁勋说,这是首次将实时Ray Tracing带向商业市场。感谢GPU,感谢深度学习。

英伟达推出的Quadro GV100 GPU将该公司最近发布的RTX光线跟踪技术引入工作站。英伟达的RTX光线追踪技术是软件和硬件的组合,允许应用程序生成实时光线追踪效果。

Quadro GV100配备32GB内存,与Tesla V100有相同的底层设计。GV100可以提供高达7.4 TeraFLOPS的双精度和14.8 TeraFLOPS的单精度计算。英伟达表示这个显卡还可以提供高达118.5 TeraFLOPS的深度学习性能。

Quadro GV100还支持NVLink 2互连技术,可以将这两个设备配对在一起。总共64GB的HBM2内存,10,240个CUDA内核和236个张量内核整合到一个工作站中。

7d07af3f87d7b42f3217cf67850c52442385cb3c

电影大片完成后,要得到逼真效果,“CPU渲染一帧10小时,”黄仁勋说:“使用GPU要快很多,而且更重要的是,能省钱——大家都知道了,你买的GPU越多,你省的钱越多。”现在这已经是常识了。

全球最大GPU,核弹轰炸!!!

接着,也是全场最重要揭幕了全球最大GPU——Quadro GV100,这是一个GPU工作站,2个GV100,使用NVLink相连,形成一个完整的工作站,软件感觉不到切换。

d67dabc9bd4b83cffde3f0326abd886bd14e1be1

VIDIA TESLA V100 32GB,SXM3

8481c8f592b7f349aa84a1de5c171db681516edf双板总计16块GPU,总计512GB HBM2 存储
8481c8f592b7f349aa84a1de5c171db681516edf 每块GPU板由8块NVIDIA Tesla V100组成
8481c8f592b7f349aa84a1de5c171db681516edf 总计12 NVSwitch 连接
8481c8f592b7f349aa84a1de5c171db681516edf 高速互连,2.4 TB/秒对分带宽。
8481c8f592b7f349aa84a1de5c171db681516edf 8 EDR 无线带宽 / 100 GbE 以太网
8481c8f592b7f349aa84a1de5c171db681516edf 1600 Gb/秒双向带宽和低延迟。
8481c8f592b7f349aa84a1de5c171db681516edf PCIE Switch Complex
8481c8f592b7f349aa84a1de5c171db681516edf 2个英特尔Xeon Platinum CPUs
8481c8f592b7f349aa84a1de5c171db681516edf 1.5 TB系统内存
8481c8f592b7f349aa84a1de5c171db681516edf 双10/25 GbE 以太网
8481c8f592b7f349aa84a1de5c171db681516edf 30 TB NVME SSDS内部存储

这个全球最大的GPU有多大?感受一下:

普通GPU(你能看出型号吗?是N粉就说!)

ef2201226450bf5471a5c3eccf2d1794e6c0e5fc

这是最大GPU:

689579f4cb87acda9bed44aed48963fd5137d9bc

相比庞大繁重的CPU机架,使用英伟达RTX Quadro GV100,14-Quad-GPU服务器,“省下成千万上亿美元”。

99318836ebb0ba28c5aad537c9db1491251881f1

新系统旨在允许开发人员扩大其神经网络的规模。DGX-2具有12个NVSwitch,每个NVSwitch的特点是在台积电12nm FinFET工艺上制造了120亿个晶体管。每个交换机都具有18个8位NVLink连接。IBM已经宣布将于2019年推出采用NVLink 3.0的Power9系统,因此我们预计NVSwitch将利用这种互补互连。

太美了,太性感了,太美了。

黄仁勋掩饰不住沉醉。

DGX-2专门为深度学习,而生一天半就完成了。

如今AI研究员使用AI设计/发现AI,实验的规模和数量都不断增长。更多的实验、更多的数据,DGX-2推出的时机不能在好了。

价格?

39.9万美元。

加倍Tesla V100内存

下面简单介绍其他宣布。

特斯拉V100采用了迄今为止生产量最大的单模芯片。采用台积电12纳米FFN工艺制造的815毫米2 伏特晶体管,使用了210亿个晶体管,几乎是全分划板的尺寸。GPU包装了5120个用于AI工作负载的CUDA核心,虽然它具有足够的处理能力,但英伟达已经使用额外的16GB HBM2内存支持该卡。英伟达表示,更强大的32GB内存可以在内存受限的HPC工作负载中实现双倍的性能。

NVSwitch拓扑将16个GPU连接在一起,形成一个具有统一内存空间的统一内核单元,从而创建Jensen吹捧为“世界上最大的GPU”的内容。该系统共有512GB HBM2内存,可提供高达14.4TB / s的吞吐量。它共有81,920个CUDA内核。

GPU接受程度前所未有,形成全球计算范式

接着,黄仁勋表示,英伟达做的最好决定之一,是这些年来,让GPU越来越通用,在不损失计算机图形学性能的前提下,将GPU导向深度学习。然后,引爆点到来,现在,GPU已经成为广为接受的一种计算范式,全世界有100万GPU工程师,GTC成为全球会议,cuDNN 800万次下载,一大半都发生在去年一年,而英伟达10年前就开始提供。

GPU接受程度前所未有,然而,这还不够。

我们还需要更大的计算机,更快的计算机。加州理工大学要模拟一个项目,需要7天;要模拟一个艾滋病模型,需要3个月。过去5年,GPU增速25倍,远远超出摩尔定律。我们正处于超级摩尔定律时代,而这一趋势也将持续。

接着是教主的自豪/自傲时间,英伟达基本上每年都推出新架构,与软件工程师合作保持套件更新。总之,说道这里,教主表示,祝贺John Hennessy和David Patterson获得2017年的图灵奖,“John的体系结构演讲精彩非凡——但是,我的演讲很简单,”黄仁勋说,没错,英伟达在高性能计算(HPC)方面,也(买越多越)省钱!

要让医生/医院更换现有基础设施,需要30年。等不了这么久,怎么办?有没有办法利用现有技术,在改动不大的前提下,给予医生更大的智能能力。

066c1685285ddbee58779c3ef8be8fb4b1b4a87d

英伟达医疗图像超级计算机Clara应运而生。接入现有的医疗设备,比如超声波检测仪,就能将整套流程全部升级——使用深度学习,在原来的黑白图像上实时渲染出颜色,分层、分区域,并且变为3D图像,后期各种计算机技术,提升图像质量,医生的检测能够变得更加敏锐清晰。

目前,英伟达的Clara计划已经与数十家公司,初创企业为主,构建了生态。可以想象,将英伟达的超级医疗图像计算机部署到医院,又打开了一大市场。

推理很难:公布TensorRT 4.0,以及Kubernetes on GPU

讲到这里,黄教主已经一个人说了1个多小时。

“Plaster。”说完这个词,他停了一会,歇一口气。

这也是教主自己发明的词,希望向世人传达的GTC第二大要点。

这个词是关于推理(inference)。推理很难,精度、通量……各种变量要考虑。如何让推理变得更好?这里,当然是英伟达的高性能神经网络推理引擎TensorRT的更新——TensorRT 4.0发布,用于在生产环境中部署深度学习应用程序,应用有图像分类、分割和目标检测等,可提供最大的推理吞吐量和效率。TensorRT是第一款可编程推理加速器,能加速现有和未来的网络架。TensorRT 4.0实现全栈连接。

与CPU相比,NVIDIA TensorRT 4 现在可以将AI任务的参数加速200倍,适用于图像分类、分割、物体检测、语音识别、机器翻译等应用。

bb46e7ed9a3d8a46af4ce6155429fd2d48184cc1

此外,还有英伟达GPU Kubernets。

Kubernetes借助NVIDIA GPU,开发人员现在可以即时地将GPU加速的深度学习和HPC应用程序部署到multi-cloud GPU群集中。

“人生完整了。”黄仁勋说。

暂停无人车研发,英伟达股价下跌3.8%

一口气发布这么多款产品,黄教主可谓是蛮拼的,但其实这样做也是英伟达不得不为之的事情。

值得一提,在黄仁勋演讲接近尾声的时候,英伟达股票下跌了3.8%。

“我们要暂定无人驾驶的研发。”黄仁勋说。

Uber自动驾驶致死事故显然对英伟达造成了巨大的影响。根据公开资料,Uber从2016年首次部署沃尔沃SC90 SUVS测试车队以来,一直使用英伟达的计算技术。

这让人想起了当年特斯拉车祸时,与特斯拉分手的Moibleye——但不同的是,Mobileye并没有要停止研发,而是迅速搭上了其他公司,而后被英特尔以153亿美元的高价收归旗下。

英伟达目前没有表示具体研发计划暂定的时间。

981f52708ff3d8263cd3d64492de6803ba11f3d1

虽然现实世界中停止路测,但英伟达还推出了一个测试自动驾驶汽车的新系统DRIVE Con stellation,这是一款基于云计算的平台,将使用逼真模拟测试驾驶场景。

系统在两台服务器上运行。第一台服务器支持Nvidia DRIVE Sim,它一款模拟自动驾驶汽车各种传感器(包括其摄像头,激光雷达和雷达)的软件。第二台服务器包含Nvidia DRIVE Pegasus AI,它将处理收集的数据,就好像它来自道路上自驾车的传感器。

前压后赶,英伟达衰相已现?

其次,也不要忘记英伟达面临的众多对手。

首先是英特尔。英特尔去年宣布发布Nervana神经网络处理器(NNP)系列芯片,代号为Lake Crest。这款芯片的强大之处在于,它由“处理集群”阵列构成,处理“活动点(flexpoint)”的简化数学运算。这种运算相对于浮点运算所需的数据量更少,性能号称提升10倍。

8a0c7c50ab69e59a43ea3d293e8dd4175e5b558d

不过,Nervana系列芯片宣称2017年年底量产,但直到现在还一直跳票;而且,英伟达已经在游戏、深度学习、自动驾驶等领域建立起自己的芯片生态圈,“护城河”相当宽。但是,就像黄教主经常揶揄CPU的摩尔定律一样,反过来看,GPU并没有本质上的突破,GPU的现在优势可能很容易就被性能一日千里的神经网络芯片超越,英伟达的护城河很快就会被攻破。

跟英特尔一起攻城的还有赛灵思。

今年3月20日,赛灵思推出ACAP(Adaptive Compute Acceleration Platform,自适应计算加速平台),ACAP是一个高度集成的多核异构计算平台,它的核心是新一代FPGA架构,能根据各种应用与工作负载的需求从硬件层对其进行灵活变化。ACAP的灵活应变能力可在工作过程中进行动态调节,它的功能将远超FPGA的极限。

93004128e523836ba069ae5eb0ef16928ce46044

赛灵思新任CEO Victor Peng在接受新智元采访时表示,GPU虽然在某些方面比CPU能处理的更好,但也不能适应所有的情况,因此现在更多需要的是异构计算。尤其是在人工智能时代,赛灵思也想通过自身在异构计算方面优势来实现对英伟达以及英特尔的赶超。

除了前面两个大块头,AI芯片创业公司也让这片市场从蓝海变成红海。中国有寒武纪、地平线、深鉴科技,英国有哈萨比斯投资的Graphcore,美国也有多家AI芯片初创公司。这些公司针对的是不同的应用场景,每一家都有可能抢走英伟达的细分市场。

不过,最能给英伟达造成威胁的,还应当是带头大哥谷歌。

虽然谷歌的TPU只是用在谷歌内部,但单从硬件性能看,TPU已经超越英伟达GPU。


原文发布时间为:2018-03-28

本文作者:闻菲、张乾、肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:刚刚,黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
机器学习/深度学习 人工智能 分布式计算
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
122 0
|
人工智能 自动驾驶 数据可视化
黄仁勋决定走CPU、GPU、DPU「三芯」总路线
黄仁勋决定走CPU、GPU、DPU「三芯」总路线
119 0
|
机器学习/深度学习 人工智能 自动驾驶
教主黄仁勋亮相GTC China:英伟达已售出15亿块GPU!重磅发布TensorRT 7
又到了一年一度的英伟达GTC China大会,NVIDIA创始人兼CEO黄仁勋和大家分享了英伟达取得的成绩:NVIDIA已经售出15亿块GPU,并重磅发布TensorRT 7,以及支持L2-L5自动驾驶的系统级芯片Orin。
217 0
教主黄仁勋亮相GTC China:英伟达已售出15亿块GPU!重磅发布TensorRT 7
|
机器学习/深度学习 人工智能 分布式计算
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
149 0
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
|
监控 异构计算
阿里云超算集谛优化GPU异构并行性能:GROMACS
阿里云超算集谛优化GPU异构并行性能:GROMACS
4387 0
|
机器学习/深度学习 人工智能 数据中心
12年来最大飞跃!黄仁勋发布史上最强GPU,世界首个实时光线追踪新一代图灵架构
刚刚,英伟达CEO黄仁勋在SIGGRAPH 2018上大秀肌肉,推出世界首个实时光线追踪GPU,基于图灵架构,这是自2006年以来GPU实现的最最重大的飞跃,每秒处理高达10GB Rays,这将彻底改变整个计算机图形处理界的工作流程。
2105 0
|
人工智能 异构计算
【GPU称霸超算TOP500最新榜单】美国重夺全球超算霸主,总算力56%来自GPU
在近日举行的ISC会议上,最新Top500榜单公布了。这次,榜单顶部的排名变化较大,美国Summit超级计算机摘得桂冠,中国的神威·太湖之光排名第二。这是自2012年11月以来,美国第一次宣布全球最强大超级计算机,重夺超算霸主地位。但在进入榜单的系统数量方面,中国仍然远超美国。
2525 0
|
机器学习/深度学习 人工智能 异构计算
黄仁勋教主再发威:刚刚推出GPU服务器标准平台
3月份的2018 GTC结束后,英伟达今天在台湾开了个“专场”,发布了不少新产品,其中包括英伟达GPU服务器标准平台HGX-2和全新的RTX技术,并且黄教主还坚称英伟达GPU“买得越多,省的越多”。
1411 0
|
区块链 数据安全/隐私保护 数据中心
黄仁勋:区块链将继续存在 希望加密货币成GPU主动力
区块链将继续存在 希望加密货币成GPU主动力
1244 0