NVIDIA能在竞争激烈的AI芯片市场保持优势吗?

简介: 供职于Moor Insights & Strategy的高级分析师Karl Freund以《深度学习的寒武纪爆发》为题分三部分阐述了自己对深度学习芯片的观察

雷锋网(公众号:雷锋网)按,供职于Moor Insights & Strategy的高级分析师Karl Freund以《深度学习的寒武纪爆发》为题分三部分阐述了自己对深度学习芯片的观察,前两篇《芯片巨头们2019年的AI芯片之争会如何?》《2018年全球最值得关注的AI芯片初创公司》 分别解读了巨头和初创公司的AI芯片。

本系列的最后一篇文章,作者分别从训练和推理市场的角度,去解读NVIDIA如何在竞争更加激烈的市场中保持领先地位。

从Nervana的历史说起

首先,我们看看 英特尔 与Nervana之间的故事。在被英特尔收购之前,Nervana声称其产品性能将比GPU高至少10倍。然后发生了一件有趣的事,NVIDIA的TensorCores让所有人感到惊讶,因为TensorCores的性能不是Pascal的2倍,而是5倍。然后NVIDIA用NVSwitch再将其性能翻倍,这使得它能够实现惊人的高性能(售价40万美元,非常昂贵)8 GPU DGX-2服务器,它的性能击败了大多数(如果不是全部)竞争对手。

与此同时,NVIDIA CuDNN库和驱动程序的性能提升了大约一倍。它还构建了基于GPU的云,让GPU的使用非常简单,只需点击并下载大约30个深度学习和工作负载的优化软件堆栈容器即可。所以,正如前面文章提到的那样,英特尔的10倍性能优势已经消失,Nervana不得不重新设计,英特尔承诺将在2019年底推出新芯片。英伟达基本证明了拥有扎实基础的10000多名工程师可以超越50名顶级的工程师(雷锋网注,Nervana被收购时拥有50人的团队)。对此没人应该感到惊讶,对吧?

10000名工程师团队的优势

进入到2019年,竞争对手再次声称他们研发中的芯片有超越英伟达GPU 10甚至100倍的性能优势。需要注意的是,NVIDIA拥有规模达10000名工程师的团队,在全球与顶尖研究人员和最终用户建立协作关系。现在,他们正在为NVIDIA的下一代7nm芯片寻找最佳设计,在我看来,这将是英伟达的产品从“带有AI的GPU芯片”转变为“带有GPU的AI芯片”的转变。                                             

TB1ZL2eFmrqK1RjSZK9XXXyypXa.png

图1:NVIDIA的DGX-2超级计算机一体机可在NVSwitch上互连的16个V100 GPU上提供2 peta-ops的AI性能

NVIDIA工程师可以为下一代产品增加多少“沙子”(逻辑区域)?虽然以下分析很简单,但对于寻找关键问题的答案是有用的。

让我们从具有出色性能的ASIC—— 谷歌 TPU开始,我看到有分析师估计每个TPU芯片大约集成了20-25亿个晶体管。Volta V100在12nm制造工艺中拥有大约210亿个晶体管,它是台积电可以制造的最大芯片。随着NVIDIA使用的制造工艺从12nm变为7nm,芯片可以包含大约1.96(1.4x1.4)的晶体管。因此,从理论上讲,如果NVIDIA没有添加图形逻辑单元(不可否认),它将拥有另外200亿个晶体管,这大约是TPU逻辑量的十倍。假设逻辑差2倍。在这种情况下,NVIDIA工程师仍然有5倍的逻辑单元用于AI功能。现在,NVIDIA可能全力以赴提升性能,而非降低成本或功耗。

在训练市场,这就是用户需要的——更短的训练时间。关于NVIDIA可能会做哪些改良有很多观点,包括片上内存或处理器中更多的TensorCores。

我的观点是,NVIDIA毫无疑问拥有可用于芯片创新的储备,就像TensorCores一样。我采访过许多AI芯片初创公司,但我最尊重的那些人告诉我不要低估NVIDIA,也不要认为NVIDIA被锁在GPU的思维中。NVIDA DLA和Xavier,这两个ASIC和SoC,证明了NVIDIA可以构建各种加速器,而不仅仅是GPU。因此,许多这些创业公司的CEO决定不用NVIDIA的方式,而是首先进入推理市场。

我认为NVIDIA在训练市场的劣势不会长期存在,它现在的问题可能是芯片成本高,但对于AI训练,客户愿意付出代价。此外,在推理市场,NVIDIA的Xavier是令人印象深刻的芯片。

深度学习寒武纪爆炸有利于可编程性

让我们回到寒武纪爆炸的想法。NVIDIA指出我们还处于AI算法研究的早期阶段。比如用于图像处理的卷积神经网络的ASIC可能(并且几乎肯定会)对于其它网络比如GAN,RNN或尚未发明的神经网络表现就会非常糟糕。

不过,如果NVIDIA能够解决急待解决的内存墙问题,GPU的可编程性再加上NVIDIA工程师共同构成的生态系统,GPU应该可以相当快地适应一种新的神经网络处理形式。NVIDIA已经通过NVLINK创建8个GPU和256GB高带宽(HBM)内存网络,以极高的价格为代价解决内存问题。我们不得不等待下一代GPU,以了解它是否以及如何解决延迟和带宽问题,这将需要大约10倍HBM性能的内存。

推理战争

边缘和数据中心推理市场需求多样,并且有望实现快速增长,但我怀疑的是,大众推理市场是否会成为一个特别具有吸引力的市场。毕竟,随着越来越多公司关注和抢占这一市场,产品的最终利润率可能相当薄弱。

现在,一些推理很简单,但有些推理却非常困难。后者的市场将保持较高的利润率,因为只有配备CPU的复杂SoC(比如Nervana)、GPU、DSP和ASIC等具备并行处理能力的处理器才能为自动驾驶等提供所需的性能。

任职于英特尔的Naveen Rao最近在Twitter上发布的消息透露, Nervana推理处理器可能是基于10nm的 SoC,集成Ice Lake CPU内核。NVIDIA已经引领了这种方法,比如用于自动驾驶的Xavier SOC。 Xilinx 也采用了类似的方法,今年晚些时候,它的Versal将推出。想要用这样的方式的任何创业公司都需要具备两个特性:1)非常高的能耗比,2)创新的产品路线图,这将使他们能取得领先。

结论

总之,我将强调以下内容:

1.  人工智能的未来需要专用芯片,专用芯片的市场将变得巨大。

2.  世界上最大的芯片公司希望在未来的AI芯片战争中获胜。虽然英特尔正在追赶,但不要低估它能做些什么。

3.  有很多资金充足的初创公司,其中一些会取得成功。如果你想投资一家,请确保他们不会对NVIDIA的实力不屑一顾。

4.  未来5年,中国将在很大程度上摆脱美国的人工智能技术。

5. NVIDIA拥有超过10000名工程师,其下一代为AI设计的高端GPU可能会给我们带来惊喜。

6. 推理芯片市场将快速增长,并且在特定应用领域也有市场空间。FPGA,特别是Xilinx的下一代产品可会在这一领域发挥重要作用。

雷锋网编译,via forbes 雷锋网

相关文章:

芯片巨头们2019年的AI芯片之争会如何?

2018年全球最值得关注的AI芯片初创公司

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
155 13
|
3月前
|
人工智能 并行计算 数据中心
NVIDIA智算中心“产品”上市,AI工业革命的iPhone时刻
NVIDIA智算中心“产品”上市,AI工业革命的iPhone时刻
|
1月前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
1月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
54 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
28天前
|
人工智能 机器人 云计算
【通义】AI视界|OpenAI据称已计划联手博通和台积电共同打造自研芯片
本文由【通义】自动生成,涵盖苹果iOS 18.2将集成ChatGPT、OpenAI联手博通和台积电自研芯片、微软指责谷歌发起影子运动、英伟达高管预测AI将呈现人类形态、OpenAI董事会主席的初创公司估值达45亿美元等热点资讯。更多精彩内容,请访问通通知道。
|
28天前
|
数据采集 人工智能 搜索推荐
【通义】AI视界|迎接Apple Intelligence,Mac家族进入M4芯片时代
本文概览了近期科技领域的五大热点:苹果宣布Apple Intelligence将于2025年4月支持中文;新款Mac将搭载M4芯片;ChatGPT周活跃用户达2.5亿,主要收入来自订阅;Meta开发AI搜索引擎减少对外部依赖;周鸿祎支持AI发展但反对构建超级智能。更多详情,访问通义平台。
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|马斯克:特斯拉计划2025年末批量装备AI训练芯片Dojo2
本文精选了24小时内的重要AI新闻,包括特斯拉计划2025年批量装备Dojo 2芯片、英伟达股价大涨、谷歌联合创始人积极参与AI项目、中科院女工程师开源AI模型保护女性,以及快手旗下可灵AI与蓝色光标达成战略合作。更多内容敬请访问通义官网体验。
|
3月前
|
人工智能 搜索推荐 语音技术
青否AI数字人抖音稳定开播,数字人带货优势及注意事项!
AI数字人直播带货革新电商领域,虚拟形象外形逼真且互动流畅,改变购物体验。青否数字人采用【实时改写实时生成】确保内容不重复,并通过AI智能回复即时解答用户问题,解决非实时内容及低频互动违规。数字人技术具24/7工作能力和个性化互动优势,降低成本提高效率。青否数字人直播解决方案实现降本增效,助力商家全天候直播带货,提升销售额。
青否AI数字人抖音稳定开播,数字人带货优势及注意事项!
|
5月前
|
人工智能 中间件 Serverless
基于函数计算FC 部署 ComfyUI实现AI生图 的优势
【6月更文挑战第17天】基于函数计算FC 部署 ComfyUI实现AI生图 的优势
基于函数计算FC 部署 ComfyUI实现AI生图 的优势
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
清华首款AI光芯片登上Science,全球首创架构迈向AGI
【4月更文挑战第16天】清华大学研究团队开发出大规模光子芯片“太极”,在《科学》杂志发表,该芯片基于创新的光子计算架构,实现百万神经元级别的ONN,能效比高达160 TOPS/W。实验中,太极芯片成功执行1000类别分类任务,提升AI内容生成质量,为AGI发展开辟新路径。然而,光子集成电路的制造成本高、技术成熟度不足及软件支持限制了其广泛应用。
164 5
清华首款AI光芯片登上Science,全球首创架构迈向AGI

热门文章

最新文章