英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

简介: 教机器人与外部世界交互和执行复杂的任务一直是一个未解决的难题,但相信随着深度学习和AI的突破,这个问题最终必将得到解决。在机器人学习执行具体任务的过程中

北京时间9月26日,在英伟达GPU技术峰会上,英伟达创始人兼CEO黄仁勋正式发布TensorRT 3 神经网络推理加速器。据官方介绍,TensorRT 3能极大改善处理性能,削减从云到边缘设备(自动驾驶汽车、机器人等)的推理开销。TensorRT 3 是在Volta GPU 实现最优推理性能的关键,比起CPU它能实现高达40倍的吞吐量,时延在7ms之内。目前,对于英伟达开发者计划成员,现在有针对Tesla GPU (P4, P100, V100)和Jetson嵌入式平台的TensorRT 3提供免费下载。

关于TensorRT

据雷锋网了解,英伟达TensorRT 是一种高性能神经网络推理引擎,用于在生产环境中部署深度学习应用程序。应用有图像分类,分割和目标检测,提供的帧/秒速度比只有CPU的推理引擎高14倍。

TensorRT是世界上第一款可编程推理加速器,能加速现有和未来的网络架构,TensorRT可编译到广泛的目标CUDA GPU中,从120 TOPS到1 TOPS,从250瓦到低于1瓦。

它包含一个为优化在生产环境中部署的深度学习模型而创建的库,可获取经过训练的神经网络(通常使用 32 位或 16 位数据),并针对降低精度的 INT8 运算来优化这些网络。

为何TensorRT 3有着无可比拟的地位,他提到了以下几点:

  • 一是网络设计呈爆发性增长:AI推理平台必须具备可编程性才能运行种类繁多且不断演进的网络架构;新的架构、更深的网络、新的分层设计会继续提升CNN的性能。

  • 二是智能机器呈爆发性增长:AI会将智能诸如到2000万台云服务器、上亿台汽车和制造机器人中;最终,以万亿计的物联网设备和传感器将智能地监测一切,从心率和血压监测,到需维修设备的震动监测;AI推理平台必须可扩展,以解决海量计算的性能、公号和成本需求。

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

TensorRT 3新的亮点如下:

  • 相较Tesla P100,在Tesla V100上能实现3.7倍的加速,时延在7ms之内

  • 在Tesla V100上进行优化和配置TensorFlow模型时,比起TensorFlow框架能实现18倍的推理加速

  • 轻松使用Python API接口,生产力得到极大改进

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

雷锋网(公众号:雷锋网)据黄仁勋现场介绍,

TensorRT3的性能非常卓越,运行在Volta上的TensorRT3在图像分类方面比最快的CPU还要快40倍,在语言翻译方面则要快140倍。

另外,现场他还提到,神经网络的响应时间或处理延时会对服务质量造成直接影响,运行在V100上的TensorRT在处理图像是可实现7ms的延时,在处理语音是延时不到200ms,这是标准云服务的理想目标,单靠CPU是无法实现的。

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

TensorRT3能支持Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer等所有的深度学习框架,将TensorRT 3和英伟达的GPU结合起来,能在所有的框架中进行超快速和高效的推理传输,支持图像和语言识别、自然语言处理、可视化搜索和个性化推荐等AI服务。

AI新纪元

另外,在演讲中,黄仁勋提到,现在已是计算新纪元,包括TensorRT在内的NVIDIA多个平台已被BAT等多家科技巨头采用:

  • 目前,NVIDIA TensorRT已经被BAT、科大讯飞、京东所采用;

  • 除了 TensorRT,NVIDIA Tesla V100 AI平台已被BAT、华为、浪潮和联想在内的中国领军IT公司采用;

  • NVIDIA AI 城市平台已被阿里巴巴、海康威视、大华和华为所采用,以解决最大规模的AI和推理难题之一;

另外,黄仁勋在现场正式发布全球首款自主机器处理器Xavier,这是迄今为止最复杂的片上系统,将于18年第一季度向早期接触的合作伙伴提供,在18年第四季度全面推出。这个处理器的发布将揭开人工智能时代新篇章。

英伟达发布TensorRT 3可编程推理加速器,比起CPU能实现高达40倍吞吐率

除了Xavier,他们也发布了一个虚拟机器人仿真环境Isaac Lab。谈及为何要创造这个自主机器系统,他提到,

教机器人与外部世界交互和执行复杂的任务一直是一个未解决的难题,但相信随着深度学习和AI的突破,这个问题最终必将得到解决。在机器人学习执行具体任务的过程中,他们可能会对周边的事物造成损坏,并且需要很长的训练周期。因此,需要创造一个可供机器人学习的虚拟世界——看起来像真实世界,并遵守物理学定律,机器人可以在其中超实时地学习。

在现场,他也强调,NVIDIA将会全力推进“统一架构”CUDA GPU计算。通过Inception计划,将支持1900家初创公司创建AI未来。

究竟NVIDIA能让AI跨进怎样的未来,拭目以待!




本文作者:Non
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
Unix 异构计算 Windows
带你读《基于CUDA的GPU并行程序开发指南》之一:CPU并行编程概述
本书旨在帮助读者了解与基于CUDA的并行编程技术有关的基本概念,并掌握实用c语言进行GPU高性能编程的相关技巧。本书第一部分通过CPU多线程编程解释了并行计算,使得没有太多并行计算基础的读者也能毫无阻碍地进入CUDA天地;第二部分重点介绍了基于CUDA的GPU大规模并行程序的开发与实现,并通过大量的性能分析帮助读者理解如何开发一个好的GPU并行程序以及GPU架构对程序性能的影响;本书的第三部分介绍了一些常用的CUDA库。
|
2月前
|
缓存 编译器 调度
【C/C++ 性能优化】了解cpu 从而进行C++ 高效编程
【C/C++ 性能优化】了解cpu 从而进行C++ 高效编程
109 0
|
3月前
|
存储 机器学习/深度学习 测试技术
mnn-llm: 大语言模型端侧CPU推理优化
mnn-llm: 大语言模型端侧CPU推理优化
413 1
|
3月前
|
安全 机器人
ABB PLC自动化可编程逻辑控制器PLC AC500型 CPU
ABB PLC自动化可编程逻辑控制器PLC AC500型 CPU
|
5月前
|
存储 人工智能 缓存
探索AIGC未来:CPU源码优化、多GPU编程与中国算力瓶颈与发展
近年来,AIGC的技术取得了长足的进步,其中最为重要的技术之一是基于源代码的CPU调优,可以有效地提高人工智能模型的训练速度和效率,从而加快了人工智能的应用进程。同时,多GPU编程技术也在不断发展,大大提高人工智能模型的计算能力,更好地满足实际应用的需求。 本文将分析AIGC的最新进展,深入探讨以上话题,以及中国算力产业的瓶颈和趋势。
|
12月前
|
存储 缓存 Java
高并发编程-通过volatile重新认识CPU缓存 和 Java内存模型(JMM)
高并发编程-通过volatile重新认识CPU缓存 和 Java内存模型(JMM)
249 0
|
12月前
|
机器学习/深度学习 编解码 自然语言处理
NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50!!!
NAS-ViT | 超低FLOPs与Params实现50FPS的CPU推理,精度却超越ResNet50!!!
176 0
|
12月前
|
前端开发 rax
实验一:查看CPU和内存,用机器指令和汇编指令编程
实验一:查看CPU和内存,用机器指令和汇编指令编程
157 0
|
12月前
|
机器学习/深度学习 人工智能 并行计算
现在都2202年了,用CPU做AI推理训练到底能不能行?
现在都2202年了,用CPU做AI推理训练到底能不能行?
299 0
|
PyTorch 算法框架/工具
在pytorch中,模型权重的精度会影响模型在cpu上的推理速度吗?
在用pytorch训练模型时发现,模型训练的eopch越多,保存模型时模型权重的精度越好,模型在cpu上的推理的速度越慢,是因为模型权重精度会影响推理速度吗?如何调整pytorch模型参数的精度?
444 0