英伟达:超高的性能表现……足以支持AI应用

简介:

英伟达公司已经为AI应用设计出两款全新Tesla处理器,分别为P4与P40。

 英伟达:超高的性能表现……足以支持AI应用

这款16纳米FinFET GPU采用英伟达Pascal架构,且延续今年6月发布的P100命名方式。其中P4为单高、单长PCIe卡,用于向外扩展服务器;而更为强大的P40则着眼于向上扩展设备。

这一新组合主要用于推理工作,即在硬件当中内置一套经过训练的AI模型、部分对应软件以及类似摄像头视频或者麦克风音频的输入数据,并由其据此提供决策、语音到文本转换以及对象分类等功能。

如今我们的深度学习模型已经发展到新的阶段——即利用大规模训练数据立足强大系统方可起效。但在另一方面,推理功能则需要奋起直追:我们必须能够利用数字运算处理器向复杂的神经网络推送数据,并借此进行实时决策。

这对于英特尔、英伟达及其它芯片厂商而言不啻为一个好消息,这意味着他们能够出售更多高端芯片以实现训练及推理。但坏消息在于,这意味着将有更多数据被发送至云端,并在那里进行处理,而后将结果发送回我们的手机、平板设备乃至其它小型计算平台。如此一来,我们需要高度依靠稳定的互联网连接方案。

英伟达公司高级产品经理Roy Kim告诉我们,未来的发展趋势将在于“混合”方案,即在设备之上建立低精度模型,从而保证决策可立即完成,而后再决定是否利用更为强大的后台处理资源返回更加精确的处理结果。目前最先进的图像识别系统拥有超过150层神经元,Kim指出,因此我们目前更需要在推理层面投入研究精力。

有什么新内容?

为了最大限度提升推理通量,我们的物联网云端个人助手不会在处理问题方面耗费太多时间。英伟达公司已经向其Pascal架构中添加了两条新指令:IDP2A与IDP4A。二者能够执行双及四元素8位矢量点积计算,并借此累加为32位。

基本上,数据科学家们认为8位精度已经足以支撑神经网络,;这意味着如果需要进一步提升精度以获得16位或者32位值,则可再经由GPU完成相关运算。事实上,当处理作为深层感知输入数据的信息时,我们并不需要太高的计算精度。

谷歌公司的TensorFlow加速ASIC同样使用8位精度进行推理,而英特尔与AMD芯片亦可在8位矢量计算领域带来出色的性能表现。

这是什么原理?

矢量点产品已经成为人工神经网络的核心所在。目前全部热门AI的核心皆为数学方程串,即从输入数据中或者普通英文中提取特性,或者从传感器及摄像头端获取有价值信息等,而后再利用软件对其进行处理。我们可以通过组合或者训练帮助网络接收数据流,而后通过不同加权机制对其进行分流,直到找出正确答案。这种加权机制贯穿整个训练过程,旨在检测输入数据的重要特性。

以下单个神经元示意图看起来非常复杂,但请相信我,并没有大家想象的那么可怕。首先我们在左侧获得从x1到xn的多个值,其经由n条路径向右推进。每个xi输入值都乘以其路径权重wi,而后再将这些乘积结果相加。这就是所谓点生成机制。在此之后,该加和会被引入一个阈值或者激活函数,输出结果则供网络中的下一感知体系进行使用。

英伟达:超高的性能表现……足以支持AI应用

将其加以组合,我们就能够得到以下这套基本网络,其中包含2个输入结果,3个神经元与1个输出结果。

英伟达:超高的性能表现……足以支持AI应用

让我们着眼于顶部神经元。其使用M输入值,将其乘以加权θ1,而后将结果添加至J再乘以θ2。由此得到的加和经由激活函数运行,并将结果交付至最右端的神经元。

因此如果忽略激活函数,那么顶端神经元的点生成输出结果为(Mxθ1) + (Jxθ2)。现在想象一下,如果这些变量各为8位整数,范围在-127到127之间,或者0到255之间。假设这些点生成运算可每秒执行47万亿次,且全部加和结果都能够提交至网络的下一阶段,那么这正是英伟达P40的定位所在。也正因为如此,英伟达公司才决定使用8位生成加速计算方案。

英伟达方面宣称,其P4能够在理想状态下每秒执行21.8万亿次8位整数运算,而P4在利用AlexaNet训练模型时,第瓦每秒图像分类数量可达到英特尔至强E5 CPU的“40倍”。

当然,这一切都要求我们的AI模型采用8位加权机制。这显然是一种非常高效的语音识别模型,同时亦可用于识别图像及完成其它类似的推理分类工作。

以下为Tesla GPU家族各产品的详尽规格数据,其中包括全新P4与P40:

Tesla 加速器

Tesla M4

Tesla P4

Tesla M40

Tesla P40

GPU

Maxwell GM206

Pascal GP104

Maxwell GM200

Pascal GP102

流多处理器

8

20

24

30

FP32 CUDA 核心 / SM

128

128

128

128

FP32 CUDA 核心/ GPU

1024

2560

3072

3840

基本时钟

872 MHz

810 MHz

948 MHz

1303 MHz

GPU 启动时钟

1072 MHz

1063 MHz

1114 MHz

1531 MHz

INT8 TOP/s

NA

21.8

NA

47.0

FP32 GFLOP/s

2195

5442

6844

11758

FP64 GFLOP/s

69

170

213

367

纹理单元

64

160

192

240

内存接口

128-bit GDDR5

256-bit GDDR5

384-bit GDDR5

384-bit GDDR5

内存带宽

88 GB/s

192 GB/s

288 GB/s

346 GB/s

内存大小

4 GB

8 GB

12/24 GB

24 GB

二级缓存大小

2048 KB

2048 KB

3072 KB

3072 KB

注册文件大小/ SM

256 KB

256 KB

256 KB

256 KB

注册文件大小/ GPU

2048 KB

5120 KB

6144 KB

7680 KB

共享内存大小 / SM

96KB

128KB

96KB

128KB

计算容量

5.2

6.1

5.2

6.1

TDP

50/75 W

75 W (50W option)

250 W

250 W

晶体管数量

2.9 billion

7.2 billion

8 billion

12 billion

GPU晶片大小

227 mm²

314 mm²

601 mm²

471 mm²

制造工艺

28-nm

16-nm

28-nm

16-nm

P4与P40将于今年10月与11月分别开始销售。如果大家希望早点熟悉这类新方案,则可选择英伟达公司的Pascal Titan X显卡,其发布于今年7月且同样拥有44 TOPS的8位整数运算能力。P40基本上就是一款略微强化过的Titan X。

与此同时,英伟达方面还发布了TensorRT(一套运行于其硬件之上的推理引擎)外加Deepstream软件开发工具包,用于识别高分辨率(HEVC、VP9)视频中的人物与对象。


原文发布时间为:2016年9月14日

本文作者:孙博 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
395 29
|
1月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
301 1
|
1月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
221 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
1月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
223 3
|
1月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
1月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
388 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
1月前
|
人工智能 安全 中间件
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,推出AgentScope-Java、AI MQ、Higress网关、Nacos注册中心及可观测体系,全面开源核心技术,构建分布式多Agent架构基座,助力企业级AI应用规模化落地,推动AI原生应用进入新范式。
405 26
|
1月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
551 45
|
1月前
|
人工智能 安全 数据可视化
Dify让你拖拽式搭建企业级AI应用
Dify是开源大模型应用开发平台,融合BaaS与LLMOps理念,通过可视化工作流、低代码编排和企业级监控,支持多模型接入与RAG知识库,助力企业快速构建安全可控的AI应用,实现从原型到生产的高效落地。
Dify让你拖拽式搭建企业级AI应用
|
1月前
|
自然语言处理 数据挖掘 关系型数据库
ADB AI指标分析在广告营销场景的方案及应用
ADB Analytic Agent助力广告营销智能化,融合异动与归因分析,支持自然语言输入、多源数据对接及场景模板化,实现从数据获取到洞察报告的自动化生成,提升分析效率与精度,推动数据驱动决策。
下一篇
oss云网关配置