12年来最大飞跃!黄仁勋发布史上最强GPU,世界首个实时光线追踪新一代图灵架构

简介: 刚刚,英伟达CEO黄仁勋在SIGGRAPH 2018上大秀肌肉,推出世界首个实时光线追踪GPU,基于图灵架构,这是自2006年以来GPU实现的最最重大的飞跃,每秒处理高达10GB Rays,这将彻底改变整个计算机图形处理界的工作流程。

“我们努力了十年。”黄仁勋说:“这是GPU自2006年以来最重大的飞跃。”

在刚刚的SIGGRAPH 2018主旨演讲中,黄仁勋将英伟达的GPU实力展现得淋漓尽致。

虽然摩尔定律已见终点,但对于英伟达GPU来说,似乎完全不存在。黄仁勋认为,历史正处于一个转折点,存在一个全新的定律——“GPU加速定律”(注:不是黄教主本人说的)。

307890cdb86b0ea6ae79e2fb9f2ea100da96b823

在演讲中,黄仁勋发布了世界首款实时光线追踪GPU——NVDIA QUADRO RTX,每秒处理高达10GB Rays,做AI能够达到每秒500 Trillion Tensor Ops,16TFLOPS + 16TIPS,使用NVLink 扩展后,每秒处理速度最高能达到100GB。


在长达5分钟的时间里,黄仁勋骄傲地举起实物,“以前有谁曾用GB做过单位?有谁曾经想过能够用GB做单位?”

黄仁勋自豪地重复了很多遍:“每秒10 GB Rays!”

735f3e774467edcf1a74dd974b677f46c6450d0b

实时渲染光线在环境中的反射和散射,是计算机图形处理界的“圣杯”,这个过程非常复杂,涉及光线在各种不同介质上的多次反射和散射。在上世纪70年代,相关算法年首次提出时,一小时只能模拟一帧,相当于每小时处理60像素。

而现在,英伟达让它提升到了“每秒10 GB Rays”。

这样得益于两大核心技术:英伟达全新研发的基于图灵架构的升级版光线实时追踪RT Core,以及深度学习Tensor Core。

4c1441dff2a0082076beec04a5909adb1e97e76f

黄仁勋感叹,为了设计RT Core架构,英伟达用了整整十年时间研发,终于实现了在一块GPU上进行光线实时追踪,这个以前业界曾经认为不可能的事情。

全新的Turing架构,“这是GPU自2006年以来最重大的飞跃。”黄仁勋说。

从Step-function到Realism,全新的混合渲染模型,光线追踪、计算以及AI,现在好用,也考虑到了未来。

英伟达再一次,实力展现了深度学习时代GPU超乎想象的计算力。

c042baf9b251932371ff326311cfc62c8643b325

实时渲染光线变化效果

全新图灵架构,全球首个实时光线追踪GPU!

黄仁勋表示,英伟达RTX是首款基于 Turing™架构的 GPU,革新了 5000 万设计师和艺术家的工作,使他们能够实时渲染逼真的场景,为其工作流程添加基于 AI 的新功能,享受复杂模型和场景的交互性。

dd301fa8478b035a3eaba41e201b479a9c8f0e23

PASCAL和TURING架构对比

cdf954ec59cc034836a2e80276f4b8734bac45bb

关键在于结合深度学习(Tensor Core)和全新实时光线追踪架构(RT Core)

4c92298d9d420a4bf5a5070a56155e81743aa7a8

图灵架构相比PASCAL实现6倍速度提升


黄仁勋还发布了NVIDIA Quadro RTX 8000Quadro RTX 6000Quadro RTX 5000,实现不同性能的硬件加速光线追踪、AI、先进的阴影和模拟等。

27a012d4271ef74261ebe1db5faca697fa7a4024

同时推出的还有完整的软件堆栈:

105e9e734614d3e45492041252de56470df3b217

以及 Quadro RTX Server,这是一种参考架构,用于从数据中心提供高度可配置、按需呈现和虚拟工作站解决方案。

504a8ef547e7e7c0e8e620ebb3de391099cb77aa

在展示Quadro RTX Server时,黄仁勋在现场展示了他最喜欢的前后对比:

71b1ccb8ef6ffdf521115927ed81975f28efa1ac

现在的渲染集群

3e7586a82bc9b7eaa5a6ddd14fda9061348d1610

使用英伟达RTX服务器

只要1万美元,简直是抢钱啊,”黄仁勋感叹,然后是那句经典的:

“你买得越多,省得越多。”

提前5年实现,彻底革新计算机图形处理

英伟达专业可视化副总裁 Bob Pette 表示:“Quadro RTX 标志着全球计算机图形行业新纪元的开始。”

“用户现在可以享受的强大功能,原来被认为至少是 5 年后才可能实现的。设计师和艺术家现在可以通过光线追踪照片写实的细节,实现复杂的设计和视觉效果。电影工作室和制片公司现在可以通过渲染工作负载实现更高的吞吐量,从而大大节省时间和成本。”

e4f01e54bcd7ab466881c7ddd6e87ca0fd913fe9

Quadro RTX 专业 GPU

Quadro RTX GPU 专为要求最苛刻的视觉计算工作负载而设计,例如用于电影和视频内容创建; 汽车和建筑设计; 以及科学可视化。

它们突破性的技术远远超过上一代,包括:

新的 RT Cores ,可以通过物理上精确的阴影、反射、折射和全局光照,实时跟踪物体和环境的光线。
Turing Tensor Cores 可加速深度神经网络训练和推理,这对于 AI 增强的渲染、产品和服务至关重要。
新的 Turing Streaming Multiprocessor 架构 ,具有多达 4608 个 CUDA 内核,可并行提供高达每秒 16 万亿次浮点运算和每秒 16 万亿次整数运算,可加速真实世界的复杂模拟。
先进的 可编程着色技术 ,可提高复杂视觉效果和图形密集型体验的性能。
首次实现超高速三星 16Gb GDDR6 内存 ,支持更复杂的设计,庞大的建筑数据集,8K 电影内容等。
NVIDIANVLink 将两个 GPU 与一个高速链路结合,可将内存容量扩展至 96GB,并通过高达 100GB/s 的数据传输提高驱动性能。
提供 USB Type-C和 VirtualLink的硬件支持 ,这是一种新的开放行业标准,旨在通过单个 USB-C™连接器满足下一代 VR 耳机的功率,显示和带宽要求。
提高 VR 应用性能的新技术 ,包括可变速率着色、多视图渲染和 VRWorks 音频。

Quadro RTX 服务器

Quadro RTX 服务器为数据中心的按需渲染定义了一个新标准,可以轻松配置按需渲染节点以进行批处理和交互式渲染。

Quadro RTX 服务器将 Quadro RTX GPU 与新的 Quadro Infinity 软件(将在 2019 年第一季度推出)相结合,提供强大而灵活的架构,以满足创意专业人士的需求。Quadro Infinity 将允许多个用户通过虚拟工作站访问单个 GPU,从而显着提高数据中心的密度。最终用户还可以根据他们的特定需求轻松配置渲染节点和工作站。

Quadro RTX 服务器预装了业界领先的内容创建和渲染软件,提供功能强大且易于部署的渲染解决方案,可从小型安装扩展到最大的数据中心,成本仅为只有 CPU 渲染的四分之一。

e4e454178f4a727b446ee2d462650d8698cf3d27


原文发布时间为:2018-08-14本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。原文链接: 12年来最大飞跃!黄仁勋发布史上最强GPU,世界首个实时光线追踪新一代图灵架构
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
27天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
|
27天前
|
人工智能 并行计算 流计算
【AI系统】GPU 架构与 CUDA 关系
本文介绍了英伟达GPU硬件基础概念,重点解析了A100 GPU架构中的GPC、TPC、SM等组件及其功能。接着深入讲解了CUDA并行计算平台和编程模型,特别是CUDA线程层次结构。最后,文章探讨了如何根据CUDA核心数量、核心频率等因素计算GPU的算力峰值,这对于评估大模型训练的算力需求至关重要。
50 2
|
27天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】GPU 架构回顾(从2010年-2017年)
自1999年英伟达发明GPU以来,其技术不断革新。本文概述了从2010年至2024年间,英伟达GPU的九代架构演变,包括费米、开普勒、麦克斯韦、帕斯卡、伏特、图灵、安培、赫柏和布莱克韦尔。这些架构不仅在游戏性能上取得显著提升,还在AI、HPC、自动驾驶等领域发挥了重要作用。CUDA平台的持续发展,以及Tensor Core、NVLink等技术的迭代,巩固了英伟达在计算领域的领导地位。
41 1
|
27天前
|
机器学习/深度学习 人工智能 缓存
【AI系统】GPU 架构回顾(从2018年-2024年)
2018年发布的Turing图灵架构,采用12nm工艺,包含18.6亿个晶体管,大幅提升了PC游戏、专业图形应用及深度学习推理的效率与性能。Turing引入了RT Core和Tensor Core,分别用于实时光线追踪和加速深度学习计算,支持GDDR6内存,显著提升了数据传输速率和效率。此外,Turing架构还支持NVLink 2.0,增强了多GPU协同工作的能力,适用于复杂的图形渲染和深度学习任务。
49 0
【AI系统】GPU 架构回顾(从2018年-2024年)
|
12天前
|
图形学 异构计算
Siemens NX何时支持GPU光线追踪与图形加速?
NX的Ray Tracing Studio在NX 1847及更早版本中不支持NVIDIA RTX板的GPU加速,仅依赖CPU,性能较慢。从NX 1872起支持GPU加速。自2023年6月版起,若无GPU,NX将显示图形配置错误并记录到syslog文件,建议使用支持的GPU以避免未定义行为。更多支持的硬件和图形信息,请参阅鼎森电脑整理的文件“NX-Graphics-Certification-Table_20241207.xlsx”。链接:https://pan.baidu.com/s/1_FpOoJU_IrExnhVXyzB4cw?pwd=676s 提取码: 676s
34 0
|
2月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
1月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
1天前
|
人工智能 JSON Linux
利用阿里云GPU加速服务器实现pdf转换为markdown格式
随着AI模型的发展,GPU需求日益增长,尤其是个人学习和研究。直接购置硬件成本高且更新快,建议选择阿里云等提供的GPU加速型服务器。
利用阿里云GPU加速服务器实现pdf转换为markdown格式
|
4月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
29天前
|
弹性计算 固态存储 Linux
阿里云服务器、轻量应用服务器、gpu云服务器收费标准与实时活动价格参考
云服务器ECS、轻量应用服务器和gpu云服务器是阿里云的主要云服务器产品,目前轻量应用服务器2核2G收费标准为60元/月,活动价格只要36元/1年或68元1年,云服务器1核1G包月收费标准最低为24.0元/月,GPU云服务器中gn6i实例4核15G配置月付1681.00/1个月起,gn6v实例8核32G配置月付3817.00/1个月起。本文为大家整理汇总了阿里云服务器、轻量应用服务器、gpu云服务器的最新收费标准与活动价格情况,以表格形式展示给大家,以供参考。