教主黄仁勋亮相GTC China:英伟达已售出15亿块GPU!重磅发布TensorRT 7

简介: 又到了一年一度的英伟达GTC China大会,NVIDIA创始人兼CEO黄仁勋和大家分享了英伟达取得的成绩:NVIDIA已经售出15亿块GPU,并重磅发布TensorRT 7,以及支持L2-L5自动驾驶的系统级芯片Orin。

微信图片_20220107183318.jpg


又到了一年一度的英伟达GTC China大会,NVIDIA 创始人兼首席执行官黄仁勋又是一身黑色皮衣亮相苏州,为大家分享了英伟达取得的成绩:NVIDIA已经售出15亿块GPU


微信图片_20220107183322.jpg


据悉,这是有史以来参会人数最多的一次,现场有超过6100人参会,比三年前增长了250%。


黄教主一口气讲了两个多小时,先奉上黄仁勋这次的演讲重点:


  • NVIDIA加速计算,持续加速着图形,HPC及AI领域的计算任务。
  • 在过去的一年中,又有三大类应用成功运行在了 NVIDIA 的平台上:光线追踪(RTX),5G(Aerial),以及最新的基因组处理(Parabricks)。
  • NVIDIA 与腾讯 Start 团队携手将游戏带到了云端。
  • NVIDIA与 ARM平台现在可以结合进行高性能计算。
  • 在人工智能领域,推荐系统是驱动互联网的引擎,现在通过深度推荐网络,这类最重要的应用可以获益于 GPU 的加速。
  • TensorRT 7 现在可以加速所有种类模型的线上推理-CNN,Transformer & RNN网络
  • 运用 TRT7,对话式AI现在可以变得有互动性和更加自然。
  • Orin 是NVIDIA最新的机器人平台芯片——更快,可以处理更高精度的传感器感知数据,以及拥有世界级的安全和防范能力。
  • 在创建下一代人工智能——智能机器人——的征途上,NVIDIA的 Isaac SDK 提供了模拟仿真和训练的平台,开放了计算能力,多种预训练模型,及多种参考应用样例。


重磅发布TensorRT 7,支持超千种计算变换


今天黄仁勋也正式发布了TensorRT 7,并称其是“我们实现的最大飞跃”。TensorRT是一种计算图优化编译器,以如TensorFlow等深度学习框架训练得到的模型作为输入,为CUDA GPU生成优化了的模型运行时。


TensorRT 通过寻找计算图中可以融合的节点和边,从而减少计算和内存访问。


去年在GTC China大会上,英伟达发布了TensorRT 5,支持自动低精度推理,将FP32模型转换成FP16或INT8模型,而不损失准确率。


但TensorRT 5仅支持CNN,这是一个不足,因为大多数语音模型需要RNN的支持,而语音推理需要大量的工作负载。


微信图片_20220107183326.jpg


今天发布的TensorRT 7解决了这一不足,它支持各种类型的RNN,Transformer 和 CNN。相比TRT5 只支持30种模型,TRT 7能够支持多达1000种不同的计算变换和优化,包括最新的BERT、RoBERTa等。


TensorRT 7能够融合水平和垂直方向的运算,可以为开发者设计的大量RNN配置自动生成代码,逐点融合LSTM单元,甚至可跨多个时间步长进行融合。并且尽可能做自动低精度推理。


那么,TensorRT 7能做什么?


TensorRT 7强大功能的典型代表是支持交互式会话AI。作为NVIDIA第七代推理软件开发套件,它为实现更加智能的AI人机交互打开了新大门,从而能够实现与语音代理、聊天机器人和推荐引擎等应用进行实时互动。


微信图片_20220107183328.jpg


AI在语音和自然语言理解方面的突破使会话AI成为可能,但会话是交互式、应答式的,因此低延迟至关重要。


一套端到端的流程可能由二三十种模型组成,用到不同的模型结构,包括CNN、RNN、transformer、自编码器、MLP等。


TensorRT 7内置新型深度学习编译器,该编译器能够自动优化和加速递归神经网络与基于Transformer的神经网络


使用CPU推理,这样一套流程的延迟是3秒。现在,使用TensorRT 7,我们可以对所有模型进行编译,使其在NVIDIA GPU上运行。T4 GPU上推理会话AI只需要0.3秒。与在CPU上运行时相比,会话式AI组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下。


黄仁勋在主题演讲中表示:“我们已进入了一个机器可以实时理解人类语言的AI新时代。TensorRT 7使这成为可能,为世界各地的开发者提供工具,使他们能够构建和部署更快、更智能的会话式AI服务,从而实现更自然的AI人机交互。”


自主机器平台DRIVE AGX Orin,全面助力L2-L5自动驾驶


本次发布平台名为NVIDIA DRIVE AGX Orin。内置全新Orin系统级芯片,晶体管数量达到170亿个,集成NVIDIA新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算,几乎是NVIDIA上一代Xavier系统级芯片性能的7倍。


微信图片_20220107183331.jpg


Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,能够支持从L2级到L5级完全自动驾驶汽车开发的兼容架构平台,助力OEM开发大型复杂的软件产品系列。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。


NVIDIA创始人兼首席执行官黄仁勋表示:“打造安全的自动驾驶汽车,也许是当今社会所面临的最大计算挑战。实现自动驾驶汽车所需的投入呈指数级增长,面对复杂的开发任务,像Orin这样的可扩展、可编程、软件定义的AI平台不可或缺。”


Navigant Research首席研究分析师Sam Abuelsamid表示:“ NVIDIA对交通运输行业的长期承诺,以及其创新的端对端平台和工具,已经构成了一个广阔的生态系统。几乎每家自动驾驶汽车领域的企业,都在其计算堆栈中使用NVIDIA的解决方案。Orin可以看作是整个行业向前迈出的重要一步,它将帮助我们在这个技术不断发展的行业中书写新的篇章。”


NVIDIA DRIVE AGX Orin系列将包含一系列基于单一架构的配置,并将于2022年开始投产。

新版Isaac软件开发套件,为构建自主机器统一平台树立里程


NVIDIA发布全新版本Isaac软件开发套件(SDK),为机器人提供更新的AI感知和仿真功能。 Isaac SDK包括Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网络模型、算法、库、驱动程序和API),用于室内物流的参考应用程序以及Isaac Sim的第一个版本(提供导航功能)。 


微信图片_20220107183333.jpg


为了加快AI机器人的开发速度,全新Isaac SDK包括各种基于摄像头的感知深度神经网络。其中: 


  • 对象检测——识别用于导航、交互或操控的对象
  • 自由空间分割——检测和分割外部世界,例如确定人行道在哪里,以及机器人可以在哪里行驶
  • 3D姿态估计——了解目标的位置和方向,从而实现诸如机械臂拾取物体的任务
  • 2D人体姿态估计——将姿态估计应用于人,这对于与人互动的机器人(例如配送机器人)和协作机器人(专门设计用于与人合作)非常重要

 

推出Isaac Sim 


新版本引入了一项重要功能——使用Isaac Sim训练机器人,并将所生成的软件部署到在现实世界中运行的真实机器人中。这有望大大加快机器人的开发速度,从而实现综合数据的训练。 


多机器人Sim来了 


全新SDK也提供了多机器人仿真。这使开发人员可以将多个机器人放入仿真环境中进行测试,以便它们学会彼此相关的工作。各个机器人可以在共享的虚拟环境中移动时,运行独立版本的Isaac导航软件堆栈。


Isaac与DeepStream集成


全新SDK还集成了对NVIDIA DeepStream软件的支持,该软件广泛用于处理分析功能。开发人员可以在支持机器人应用程序的边缘AI部署DeepStream和NVIDIA GPU,以实现对视频流的处理。 


使用Isaac SDK进行编程 


对于已经开发了自己代码的机器人开发人员,全新SDK也能集成他们的工作,并添加了基于C编程语言的新API。这使开发人员可以将自己的软件堆栈连接到Isaac SDK,并最大程度地减少编程语言转换——为用户提供通过C API访问路由的Isaac功能。 


全新Isaac SDK可以大大加快研究人员、开发人员、初创企业和制造商开发和测试机器人的速度。它使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能,从而可以在各种环境和情况下对机器人进行测试和验证。这样一来,可以节省成本。可以说,在建立统一的机器人开发平台以实现AI、仿真和操控功能方面,Isaac SDK迈出了重要的里程碑。


从游戏,到出行:与腾讯、滴滴共建云上新世界


微信图片_20220107183336.jpg


NVIDIA的GPU技术将为腾讯游戏的START云游戏服务赋力,让玩家可以随时随地,即使是在配置不足的设备上也能玩3A大作。


NVIDIA个人电脑业务高级副总裁Jeff Fisher表示:“作为全球领先的游戏开发、发行和运营平台之一,腾讯游戏将会推出出色的云游戏。将腾讯平台与NVIDIA的GPU技术相结合,将为全球各地的游戏玩家提供世界级的体验。”


腾讯游戏高级副总裁马晓轶表示:“NVIDIA打造了全球最强大的GPU,是GPU领域的领导者,又具有云解决方案方面的经验,这两大优势能够帮助我们将START平台扩展到数百万玩家。今天对于我们公司来说是一个新的契机,我们将进一步扩大我们在游戏市场的疆域。”


NVIDIA和腾讯游戏还宣布成立一个游戏联合创新实验室。双方将共同探索AI在游戏、游戏引擎优化和新光照技术(包括光线追踪和光线烘焙)中的新应用。


微信图片_20220107183339.jpg


另外,NVIDIA和滴滴今日宣布,滴滴将使用NVIDIA GPU和其他技术开发自动驾驶和云计算解决方案,双方在L4自动驾驶合作。


滴滴将在数据中心使用NVIDIA GPU训练机器学习算法,并采用NVIDIA DRIVE为其L4级自动驾驶汽车提供推理能力。滴滴在8月将其自动驾驶部门升级为独立公司,并与产业链合作伙伴开展广泛合作。 


作为滴滴自动驾驶AI处理的一部分,NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,从而实现对汽车周围环境360度全方位的理解,并规划出安全的行驶路径。 


NVIDIA自动驾驶汽车副总裁Rishi Dhall表示:“不论是在云端还是汽车中,开发安全的自动驾驶技术,端到端的AI都不可或缺。借助NVIDIA的AI技术,滴滴将能够开发更安全高效的交通运输系统,并提供丰富的云服务。” 


为了训练这些深度神经网络,滴滴将采用NVIDIA GPU数据中心服务器。在云计算方面,滴滴还将构建领先的AI基础架构,并推出计算型、渲染型和游戏型vGPU云服务器。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
5月前
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
|
6月前
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
5月前
|
存储 人工智能 安全
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?
在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。
|
10月前
|
机器学习/深度学习 存储 人工智能
【玩转 GPU】英伟达GPU架构演变
【玩转 GPU】英伟达GPU架构演变
468 0
【玩转 GPU】英伟达GPU架构演变
|
11月前
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
206 0
|
11月前
|
机器学习/深度学习 人工智能 定位技术
几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片
几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片
|
11月前
|
人工智能 自动驾驶 数据可视化
黄仁勋决定走CPU、GPU、DPU「三芯」总路线
黄仁勋决定走CPU、GPU、DPU「三芯」总路线
|
人工智能 Ubuntu Linux
重磅!英伟达宣布开源 Linux GPU 内核驱动
重磅!英伟达宣布开源 Linux GPU 内核驱动
225 0
重磅!英伟达宣布开源 Linux GPU 内核驱动

热门文章

最新文章