英伟达GPU成功之道及国产AI算力芯片发展路径-开发者社区-阿里云

GPU | COMPUTEX | 算力 | GPU服务器

英伟达 | GH200 | 一体化算力算网调度平台

近年来，人工智能硬件、软件算法以及应用场景的丰富度不断增加，算法模型参数也不断增加，这带动了对数据中心并行计算算力的需求。因此，AI、高性能计算、图形渲染、大模型训练、AIGC、ChatGPT等推动GPU大算力并行计算芯片的需求。

2023年6月5日，由工业和信息化部主办，中国信息通信研究院（以下简称“中国信通院”）等承办的“算力创新发展高峰论坛”在京顺利召开。工业和信息化部信息通信发展司副司长赵策，中国信通院副院长王志勤等领导出席会议并致辞。会上，中国信通院联合中国电信共同发布我国首个实现多元异构算力调度的全国性平台——“全国一体化算力算网调度平台（1.0版）”

该平台汇聚通用算力、智能算力、高性能算力、边缘算力等多元算力资源，针对通用、智算、超算等不同客户的不同需求，设计异构资源池调度引擎，实现不同厂商的异构资源池的算力动态感知与作业智能分发调度。特别在AI训练作业调度流程中，作业可在智算资源池上进行训练推理，在通用算力资源池部署，从而实现跨资源池/跨架构/跨厂商的异构算力资源调度，目前已接入天翼云、华为云、阿里云等。

算力是 AI 芯片底层土壤，未来算力需求将呈爆发式增长。根据 IDC 数据，未来 5 年我国智能算力规模 CAGR 将达 52.3%。AI 芯片中，GPU 占据主要市场规模。根据 IDC 数据，2022 年国内人工智能芯片市场中，GPU 芯片所占市场份额达 89.0%。

研发实力是一家芯片设计公司的核心竞争力，英伟达从发展初期就重视研发生产力，以高投入换取高回报不断提升产品竞争力。2005 年，AMD 的研发费用为 11 亿美元，是英伟达的 3.2 倍左右。而到了 2022 年，英伟达的研发费用达到 73.4 亿美元，是 AMD 的 1.47 倍。

国产厂商加速布局，看好 AI 发展推动国产替代进程提速。在 ChatGPT 等概念影响下， AIGC 关注度火热。未来 AI 应用的落地离不开庞大算力的支撑，也将推动算力产业链快速增长。据 IDC数据显示，2021 年中国 AI 投资规模超 100 亿美元，2026 年将有望达到 267 亿美元，全球占比约 8.9%，排名第二，其中 AI 底层硬件市场占比将超过 AI 总投资规模的半数。

AI、高性能计算、图形渲染

推动GPU芯片需求

随着人工智能、高性能计算、大规模图形渲染等应用场景的不断拓展和丰富，市场对大算力并行计算芯片的需求快速增长。截止目前，全球数据中心领域逻辑芯片市场规模已经超过400亿美元。同时，近期市场对国产GPU领域的关注度提升。基于英伟达的历史复盘，可以看出英伟达在图形渲染和数据中心领域保持较高的市场占有率，并实现产业引领。

一、AI 训练推理、复杂科学计算、大规模图形渲染等，持续推动并行计算芯片需求

由于GPU（图形处理器）是由成百上千个阵列排布的运算单元ALU组成，使得GPU更适用于大规模并发运算，其在图形处理、计算加速等领域有着广泛的运用。由于GPU加速器强大的并行处理能力，超算中心工作人员可以更好地设计深度网络结构，使得其在超算领域和数据中心领域更具经济效益，导致GPU在AI训练和推理、科学计算等领域有着广泛的应用。

在典型AI模型卷积网络中，大量数据以图片形式导入，在进行运算过程中，数据均为矩阵形式，而矩阵运算通常适合并行，因此AI算法的特性，使得GPU的运算速度明显大于CPU。科学计算将物理、化学、生物、航空航天等领域的问题转化为数学模型，通过计算和求解模型用于实际产业。从计算数据来看，由于科学计算中所用数据多数以矩阵为形式，同时由于科学计算对误差有强制要求，因此在运算中需要在并行运算基础上保证一定的精度。

而现代GPU在并行和矩阵运算的基础上，已经能够满足科学计算所需的精度要求。近些年来，随着人工智能软件算法的发展，复杂科学计算的进步，以及图形渲染功能的增加，带动底层芯片并行计算能力需求的快速提升。以全球AI芯片领军者英伟达的发展状况来看，公司AI芯片算力由2012年的4Tops提升至2021年的1248Tops，9年时间提升了约315倍。

英伟达单芯片推理性能（Int8 Tops）

二、AI 框架、并行计算框架等引入丰富，不断推动针对并行计算芯片软件开发门槛降低

随着AI框架和并行计算框架的引入和丰富，针对并行计算芯片软件开发门槛不断降低。从人工智能软件算法框架的发展历史来看，2015年谷歌宣布开源TensorFlow，2019年PFN宣布将研究方向由Chainer转向PyTorch。

目前，AI框架形成了TensorFlow和PyTorch双寡头垄断的竞争格局。其中，谷歌开源TensorFlow项目，在很大程度上降低了人工智能的开发门槛和难度。TensorFlow主要用于处理机器学习中的计算机视觉、推荐系统和自然语言处理（NLP）的模型训练和推理，涉及模型隐藏层相对较多，模型量相对较大，基本上均需要CUDA的加速处理。随着TensorFlow的开源，涉及到的开发者快速增加，CUDA软件下载量也呈现陡增趋势。据英伟达在2021GTC大会上宣布，截至2020年底，CUDA累计下载量超过2000万次，其中2020年下载量超过600万次。涉及到的开发人员约230万人（2020年新增超过60万人）。

人工智能框架发展史

三、算法丰富、算法复杂度提升等，亦成为市场需求的重要驱动力

近年来，随着人工智能芯片的不断发展，算法的丰富和复杂度的提升成为市场需求的重要驱动力。从Alexnet、ResNet到BERT网络模型，参数量已经超过了3亿规模，而GPT-3模型更是超过了百亿规模，Switch Transformer的问世更是一举突破了万亿规模。此外，英伟达在2020年发布的Megatron-LM模型，参数量达到了83亿，相比2018年震惊世界的BERT模型又提升了5倍。这种模型体积几何倍数的增长也带来了更多数据中心侧的需求，只有依靠上千块GPU并行运算才能在以天为单位的训练时长中完成对Transformer模型的训练。

深度学习初期模型越来越大

英伟达布局算力的成功之道

目前，全球GPU市场竞争格局主要由英伟达、AMD、英特尔等几家巨头厂商主导。英伟达是GPU市场的领导者，其市场份额在游戏领域高达80%以上，数据中心和人工智能领域也占据着重要地位。AMD是英伟达的主要竞争对手，其市场份额在游戏领域约为20%。英特尔则主要竞争于集成显卡和移动设备领域。这里以英伟达为例为大家展开详细介绍。

GPU 逐步成为全球大算力并行计算领域的主导者，这得益于 GPU 本身的优异特性以及英伟达等企业在芯片架构、软件生态等层面的不断努力，叠加 AI、高性能计算、大规模图形渲染等应用场景的快速崛起。在产品端，GPU 厂商亦结合下游的应用场景，在一个大的体系结构下，针对计算单元、缓存、总线带宽等技术点的优化和组合。目前最主流的应用场景产品是用于游戏等场景中图形渲染的显卡，以及用于数据中心 AI、高性能计算等场景的 GPGPU（通用计算 GPU）。

英伟达逐渐发展成为一家全球领先的高性能计算、AI 和游戏平台解决方案提供商。基于处理器、互连、软件、算法、系统和服务构建而成的计算平台，英伟达形成了数据中心、游戏、专业可视化、汽车四大类业务。

其中，数据中心业务主要指 NVIDIA 计算平台，覆盖超大规模、云、企业、公共部门和边缘数据中心，聚焦于加速最具计算密集型的工作负载（如人工智能、数据分析、图形和科学计算等）。游戏业务利用 GPU 和复杂的软件来增强游戏体验，使图形更加流畅、高质量。专业可视化业务主要通过 GPU 计算平台提高视觉设计领域的生产效率，主要包括设计和制造（包括计算机辅助设计、建筑设计、消费品制造、医疗仪器和航空航天）以及数字内容创作（包括专业视频编辑和后期制作、电影特效以及广播电视图形）两大应用场景。汽车业务主要包括自动驾驶、AI 驾驶舱、电动车计算平台和信息娱乐平台解决方案。公司推出的 DRIVE Hyperion 是一个完整的自动驾驶市场端到端解决方案，包含高性能、能效高的 DRIVE AGX 计算硬件、支持全自动驾驶能力的参考传感器组以及开放的模块化 DRIVE 软件平台，可在车辆内运行完整的感知、融合、规划和控制堆栈。

英伟达业务架构

一、快速崛起的数据中心业务

英伟达数据中心业务的核心是 NVIDIA 加速计算平台，该平台的建立始于 2006 年通用并行计算架构 CUDA 以及 2007 年 Tesla GPU 的推出。CUDA 提供并行计算平台和编程模型，使得 GPU 的并行计算能力能够被应用于商业、工业以及科学方面的复杂计算问题，加速计算任务的执行速度。

Tesla GPU 是专门为科学计算、工程计算、数据分析等计算密集型应用设计的高性能计算 CPU，通过与 CUDA 能力的结合，可被广泛应用于药物研发、医学成像和天气建模等领域，并在后续年份持续为全球超算中心提供基于 GPU 的算力支撑。受到多方面因素共同推动，英伟达数据中心业务快速增长，在整体收入中的占比持续提升，并于 2023 财年（对应 2022 自然年）占比达到 56%。我们认为英伟达数据中心业务崛起受到的推动因素有：深度学习开启新一轮 AI 技术蓬勃发展；数据量增加激发大规模数据处理和分析的需求；复杂计算任务需求增加；云计算技术的发展提升算力使用的便捷性。

英伟达 2014-2023 财年收入结构拆分

英伟达在数据业务上的成功，不仅仅依靠于 GPU 的销售和使用。GPU 是 NVIDIA 加速计算平台的基础，能够高效完成以神经网络训练和推断为代表的并行工作负载任务。但是，英伟达数据中心的核心业务壁垒是端到端的硬件+软件集成方案，构成从实施开发到部署的全链路基础设施支撑。从几个维度拆解来看：

1、硬件

硬件部分由三个部分组成，包括 GPU（Hopper GPU）、DPU（BlueField DPU）和CPU（Grace CPU）。这些架构涵盖了性能、安全性和网络等领域的前沿技术。CPU和DPU可以与GPU架构紧密融合，对网络、存储和安全服务进行加速，提供高性能、高能效和高可靠性的加速计算解决方案。

英伟达加速系统与传统加速系统对比

2、软件

拥有庞大的软件体系，包括CUDA并行编程模型、CUDA-X应用加速库集合、应用程序接口（API）、软件开发工具包（SDK）和工具，以及特定领域的应用框架。这些框架包括对话式AI框架NVIDIA Riva、推荐系统框架NVIDIA Merlin、计算机视觉NVIDIA Metropolis等。这些软件工具和框架可以帮助用户更高效地利用英伟达的加速计算平台，提升数据处理和分析的能力。

3、场景

适用于多种工作负载需求，包括分析、训练、推理、高性能计算、渲染和虚拟化等领域。这一平台的多样性和灵活性，可以为用户提供更加全面和高效的数据处理和分析能力。

4、NGC

NVIDIA GPU Cloud（NGC）提供一系列完全托管的云服务，将硬件、软件以及不同场景的工作负载需求进行融合，是数据中心业务的理想终极形态。NGC的服务包括用于NLU和语音AI解决方案的NeMo LLM、BioNemo和Riva Studio。AI从业者可以利用NVIDIA Base Command进行模型训练，利用NVIDIA Fleet Command进行模型管理，并利用NGC专用注册表安全共享专有AI软件。此外，NGC还拥有一个GPU优化的AI软件、SDK和Jupyter Notebook的目录，可帮助加速AI工作流，并通过NVIDIA AI Enterprise提供支持。

英伟达数据中心业务版图

二、NVIDIA DGX GH200

DGX计算机系列采用英伟达自主研发的GPU加速技术，配备高性能的CPU、GPU、内存和存储系统，能够快速处理大规模的数据和复杂的深度学习算法。此外，DGX计算机还配备了英伟达的深度学习软件堆栈，包括CUDA、cuDNN和TensorRT等，可帮助用户更轻松地构建、训练和部署深度学习模型。

GH200是英伟达在 COMPUTEX 2023展会上推出的最新超级计算机，最多可以放置256个GPU，适用于超大型AI模型的部署。相比之前的DGX服务器，GH200提供线性拓展方式和更高的GPU共享内存编程模型，可通过NVLink高速访问144TB内存，是上一代DGX的500倍。其架构提供的NVLink带宽是上一代的48倍，使得千亿或万亿参数以上的大模型能够在一台DGX内放置，进一步提高模型效率和多模态模型的开发进程。

GPU的统一内存编程模型一直是复杂加速计算应用取得突破的基石。NVIDIA Grace Hopper Superchip与NVLink开关系统配对，在NVIDIA DGX GH200系统中整合了256个GPU，通过NVLink高速访问144TB内存。与单个NVIDIA DGX A100 320 GB系统相比，NVIDIA DGX GH200为GPU共享内存编程模型提供了近500倍的内存，是突破GPU通过NVLink访问内存的100TB障碍的第一台超级计算机。NVIDIA Base Command的快速部署和简化系统管理使用户能够更快地进行加速计算。

NVIDIA DGX GH200系统采用了NVIDIA Grace Hopper Superchip和NVLink Switch System作为其构建块。NVIDIA Grace Hopper Superchip将CPU和GPU结合在一起，使用NVIDIA NVLink-C2C技术提供一致性内存模型，并提供高带宽和无缝的多GPU系统。每个Grace Hopper超级芯片都拥有480GB的LPDDR5 CPU内存和96GB的快速HBM3，提供比PCIe Gen5多7倍的带宽，与NVLink-C2C互连。

NVLink开关系统使用第四代NVLink技术，将NVLink连接扩展到超级芯片，以创建一个两级、无阻塞、NVLink结构，可完全连接256个Grace Hopper超级芯片。这种结构提供900GBps的内存访问速度，托管Grace Hopper Superchips的计算底板使用定制线束连接到第一层NVLink结构，并由LinkX电缆扩展第二层NVLink结构的连接性。

在DGX GH200系统中，GPU线程可以使用NVLink页表来访问来自其他Grace Hopper超级芯片的内存，并通过NVIDIA Magnum IO加速库来优化GPU通信以提高效率。该系统拥有128 TBps的对分带宽和230.4 TFLOPS的NVIDIA SHARP网内计算，可加速AI常用的集体运算，并将NVLink网络系统的实际带宽提高一倍。每个Grace Hopper Superchip都配备一个NVIDIA ConnectX-7网络适配器和一个NVIDIA BlueField-3 NIC，以扩展到超过256个GPU，可以互连多个DGX GH200系统，并利用BlueField-3 DPU的功能将任何企业计算环境转变为安全且加速的虚拟私有云。

对于受GPU内存大小瓶颈的AI和HPC应用程序，GPU内存的代际飞跃可以显著提高性能。对于许多主流AI和HPC工作负载，单个NVIDIA DGX H100的聚合GPU内存可以完全支持。对于其他工作负载，例如具有TB级嵌入式表的深度学习推荐模型(DLRM)、TB级图形神经网络训练模型或大型数据分析工作负载，使用DGX GH200可实现4至7倍的加速。这表明DGX GH200是更高级的AI和HPC模型的更好解决方案，这些模型需要海量内存来进行GPU共享内存编程。

DGX GH200是专为最严苛的工作负载而设计的系统，每个组件都经过精心挑选，以最大限度地减少瓶颈，同时最大限度地提高关键工作负载的网络性能，并充分利用所有扩展硬件功能。这使得该系统具有高度的线性可扩展性和海量共享内存空间的高利用率。

为了充分利用这个先进的系统，NVIDIA还构建了一个极高速的存储结构，以峰值容量运行并处理各种数据类型（文本、表格数据、音频和视频），并且表现稳定且并行。

DGX GH200附带NVIDIA Base Command，其中包括针对AI工作负载优化的操作系统、集群管理器、加速计算的库、存储和网络基础设施，这些都针对DGX GH200系统架构进行了优化。此外，DGX GH200还包括NVIDIA AI Enterprise，提供一套经过优化的软件和框架，可简化AI开发和部署。这种全堆栈解决方案使客户能够专注于创新，而不必担心管理其IT基础架构。

三、大模型时代涌现的算力需求

自ChatGPT发布以来，越来越多的科技公司投入大模型研发，带动AI服务器出货量和价格的量价齐升。根据TrendForce，2022年高端GPGPU服务器出货量有望增长9%左右，2023年人工智能服务器出货量有望增长15.4%，2023年至2027年人工智能服务器出货量复合年增长率为12.2%。同时，据IDC在5月17日发布的数据，A100 GPU市场单价已达15万元，两个月前为10万元，涨幅50%；A800价格涨幅相对更小，价格在9.5万元左右，上月价格为8.9万元左右。考虑到目前全球GPU产能有限，市场GPU供应持续紧缺，IDC预计未来AI服务器价格仍将保持上涨趋势。

2023-2027 年 AI 服务器出货量增速预测（截至 2023 年 4 月）

大模型对于算力的需求体现在模型训练和推理应用两个阶段。模型训练阶段的总计算量取决于模型的规模（参数数量）、训练数据集的大小、训练轮次、批次大小，而单一GPU的运算能力以及训练时间决定了训练阶段对于GPU（或AI服务器）的需求量；推理应用阶段的总计算量取决于模型规模（参数数量）、输入文本长度（问题长度）、输出文本长度（回复长度）、模型的计算复杂性（取决于模型维度和模型层数），而在同一时间的用户访问量以及单一GPU的运算能力决定了推理阶段对于GPU（或AI服务器）的需求量。具体而言：

根据OpenAI的论文《Scaling Laws for Neural Language Models》（2020年发表），训练阶段算力需求为3×前向传递操作数×模型参数数量×训练集规模。同时，我们可得到训练所需GPU数量为总算力需求/（每个GPU每秒运算能力×训练时间×有效算力比率）。以GPT-3模型为例，GPT-3模型参数量为1750亿个，训练集约为3000亿tokens，对应训练阶段总算力需求为：GPT-3总算力需求=6×1.75×1011×3×1011=3.15×1023 FLOPS=3.15×108 PFLOPS。若假设全部采用英伟达A100 GPU进行运算，每张GPU运算能力为624 TFLOPS（即0.624 PFLOPS，对应FP16稀疏运算），训练时间为20天（1.73×106秒），有效算力比率为30%，对应所需GPU数量为：GPT-3训练所需A100 GPU数量（20天）=3.15×108 PFLOPS/（0.624 PFLOPS/s×1.73×106 s×30%）=973个GPU=122台DGX-3。若我们假设训练20个对标GPT-3参数量和训练集规模的大模型，则需要近2万个A100 GPU或2432台DGX-3。参考IDC最新公布的A100 GPU单价，仅GPU采购对应的市场空间约为29亿元；若全部采用DGX-3进行训练，则对应市场空间可达到48.6亿元。

推理阶段算力需求同样根据OpenAI论文，推理阶段单次访问算力需求为2×模型参数数量×训练及规模。从而我们可以得到推理应用所需GPU数量=访问量×单次访问算力需求/（每个GPU每日运算能力×有效算力比率）。同样以GPT-3模型为例，参考天翼智库的测算，我们假设每次访问发生10轮对话，每轮对话产生500个tokens（约350个单词），则对应单次访问推理的算力需求为：单次访问算力需求=2×1.75×1011×500×10=1.75×1015 FLOPS=1.75 PFLOPS。我们同样假设全部采用英伟达A100 GPU进行运算，参考2023年4月ChatGPT的访问量17.6亿次，对应日均访问量约0.6亿次，则为了支撑每日的访问量推理所需GPU数量为：GPT-3每日推理所需A100 GPU数量=0.59×108×1.75 PFLOPS/（0.624 PFLOPS/s×8.64×104 s×30%）=6384个GPU=798台DGX-3。由以上计算结果可知推理阶段对于算力的需求远超训练阶段对于的算力需求。若我们假设每日需应对2亿次访问量，则需要约2.2万个A100 GPU或2720台DGX-3。

研究英伟达的快速发展

给我国带来什么借鉴意义

一、深耕 GPU 算力领域，研发为导向不断提升产品竞争力

1、采用主流 API，借助微软推广产品

NVIDIA公司自创立之初便以市场需求为导向，通过匹配主流API并不断更新技术，逐渐降低产品价格以满足消费者需求，从而占领市场。在设计NV2及后续产品时，NVIDIA公司都采用微软推出的DirectX作为API，得益于微软Windows系列操作系统在市场上占有大量份额，同时对DirectX和OpenGL进行加速优化，使得NVIDIA公司的产品得到了广泛的欢迎。

1998 年操作系统占比

2、压缩开发周期领先市场，为下游厂商提供更好的产品

英伟达公司抓住了从2D到3D的转型趋势，通过成熟的研发体系，以快速的速度甩开了2D图形厂商。该公司图形业务的快速产品周期得益于其独特的运营模式。一般图形市场产品有两个开发周期：6-9个月和12-18个月，而英伟达公司则采用了“三团队-两季度”的运营模式，即三个并行开发团队分别专注于三个独立的分阶段产品开发，分别在第一年秋季、第二年春季和第二年秋季推出新产品，每6个月推出一次新产品，与图形市场产品周期一致，领先市场1-2个研发周期。此外，为解决芯片硬件开发比软件开发慢的问题，英伟达公司大力投资了仿真技术，从而提升了效率。

3、在产品布局多元化初期，用产品交叉服务市场

尽管英伟达在手机芯片市场开拓中遭遇失败，但并未停止Tegra处理器的研发，而是改变了产品定位，将Tegra处理器应用于智能汽车、智慧城市和云端服务。因此，英伟达初步确立了“两产品条线-四市场”的商业模式，其中两个产品条线分别为传统产品GPU和Tegra处理器，而四个市场则分别为游戏、企业级、移动端和云端。

英伟达商业布局

4、英伟达的商业模式战略很好的应对了图像处理器市场的发展趋势

英伟达的商业模式战略很好地应对了图像处理器市场的发展趋势。当时的图像处理器市场产品细化，主要分布在游戏玩家、企业级、平板电脑和移动端用户，不同客户的需求差异化明显，针对不同下游英伟达推出了对应的产品方案。

1）游戏市场

针对玩家希望能够在不同平台无缝进行游戏体验的需求，英伟达推出了端到端的服务，使游戏能够在云端运行，不需要玩家拥有高性能的电脑，大大提高了玩家碎片时间的利用率和娱乐的灵活性。

2）企业级

英伟达为汽车、电影、天然气等行业提供可视化解决方案，目的是提高行业生产力。英伟达面向企业市场的产品包括用于工作站的Quadro，用于高性能计算服务器的Tesla和用于企业VDI应用程序的GRID。

3）移动端

英伟达将移动端扩展到移动智能设备市场，比如智能汽车、智能家居行业。英伟达的移动战略转变为将Tegra应用到需要视觉设计的设备中。

4）云端服务

英伟达将GPU的应用从PC端拓展到服务器和数据中心，使得更多的用户可以使用。英伟达开发的GRID使Adobe Photoshop远程运行，并与应用程序交互。

2016-2025 年自动驾驶规模（十亿美元）

5、研发投入带给英伟达高回报，在主流游戏和显卡天梯测评上，AMD 落后于英伟达

英伟达在2018年推出的Titan RTX和RTX 2080 Ti全面超过当时的Radeon VII，其采取的策略是推出比AMD稍高的性能和价格。即使技术比AMD领先，也会等到AMD推出更高性能的产品之后，才会推出，以此来获得比AMD更高的收益。

6、专利数量方面英伟达逐步反超 AMD

AMD此前在专利数量上一直多于英伟达，但申请的数量呈现下降趋势。英伟达在2011年之后申请专利数量开始爆发，主要因其在2007年之后开始研发移动端GPU和深度学习领域，最终给GPU市场带来了新的框架和更高性能的芯片。

二、CUDA 自成体系：从单一产业到生态链，构建强护城河

1、CUDA 助力英伟达成长为 AI 产业龙头，构建强大生态护城河壁垒

CUDA是英伟达基于其生产的GPU的一个并行计算平台和编程模型，目的是便于更多的技术人员参与开发。开发人员可以通过C/C++、Fortran等高级语言来调用CUDA的API，来进行并行编程，达到高性能计算目的。CUDA平台的出现使得利用GPU来训练神经网络等高算力模型的难度大大降低，将GPU的应用从3D游戏和图像处理拓展到科学计算、大数据处理、机器学习等领域。这种生态系统的建立让很多开发者依赖于CUDA，进一步增加了英伟达的竞争优势。

CUDA 加速计算解决方案

2、CUDA 的低成本和兼容性成为其最重要的吸引点之一

英伟达的CUDA是一个免费、强大的并行计算平台和编程模型。安装过程简单且明确，让开发者能够轻松快速地启动并行编程。CUDA对新手极其友好，特别是对C语言、C++和Fortran的开发者。同时为支持其他编程语言，如Java、Python等，CUDA还提供第三方包装器进行扩展。为广大开发者提供了极大的便利和高效的编程体验。操作系统方面，CUDA在多种操作系统上也都有良好的兼容性，包括Windows、Linux和macOS。

3、CUDA 有着丰富的社区资源和代码库，为编程提供良好的支持

英伟达的CUDA享有强大的社区资源，这个社区由专业的开发者和领域专家组成，他们通过分享经验和解答疑难问题，为CUDA的学习和应用提供了丰富的支持。另外，CUDA的代码库资源涵盖各种计算应用，具有极高的参考价值，为开发者在并行计算领域的创新和实践提供了宝贵的资源。这两大特点共同推动了CUDA在并行计算领域的领先地位。

CUDA 11.0 主要特点

4、CUDA 借助燕尾服效应，搭配 GeForce 覆盖多元市场

CUDA技术最初是为了配合GeForce系列芯片而推出的，利用GeForce在游戏市场的广泛覆盖率，作为一个技术杠杆，推动CUDA的普及和发展。作为一项可以帮助GeForce拓展新的市场的重要技术，CUDA极大地提高了视频和图像应用（如CyberLink、Motion DSP和Nero）的性能，实现了多倍的效率提升。

5、创业公司的大量采用使得 CUDA 应用场景进一步得到拓展，游戏不再是唯一应用领域

随着时间的推移，超过一百家创业公司开始利用CUDA的强大计算能力，使其应用领域得以扩展，不再局限于游戏方面。在视频编码领域，英伟达与Elemental公司合作，利用并行计算技术加速了高清视频的压缩、上传和存储速度。这一成功的合作不仅体现了CUDA在各种场景下的适用性，也进一步推动了CUDA技术的发展。当Elemental公司后被亚马逊收购，其基于CUDA的视频处理技术也成为AWS的服务组成部分，这一过程也让CUDA的使用场景得到了进一步的丰富和拓宽。

6、CUDA 形成完整生态链，通过大学普及学习以推广 CUDA

英伟达将 CUDA 引入了大学的课堂中，从源头上扩大了 CUDA 的使用范围和受众群体。早在 2010 年，已经有关于 CUDA 数千篇论文，超过 350 所大学进行 CUDA 教学课程。在此基础之上，英伟达建立了 CUDA 认证计划、研究中心、教学中心，不断完善 CUDA 的生态链。从结果看：2008 年仅有 100 所大学教学 CUDA 课程，在 2010 年英伟达全球建立了 20 个 CUDA 研发中心后，2015 年已有 800 所大学开放 CUDA 课程。

大学教授 CUDA 数量（所）

7、对比 OpenCL，CUDA 是英伟达 GPU 编程的更优解

虽然OpenCL具有更广泛的兼容性，但CUDA与英伟达的GPU硬件紧密结合，可以更有效地利用其性能。此外，CUDA的编程模型更加简洁易用，提供完整的开发工具链，并且拥有丰富的社区资源和多样的代码库，使得在科学计算、深度学习等领域的应用更加方便。因此，对于英伟达GPU的开发者来说，CUDA通常是更好的选择。

CUDA 成为英伟达生态基础

8、对比 ADM 的 CTM 编程模型，CUDA 拥有更广泛的应用和更高的操作性

操作性方面，CTM更接近硬件，因此开发者需要具备更深入的硬件知识才能进行开发。但这也意味着CTM可以提供更精细的控制和优化。相比之下，CUDA提供了一套完整的开发工具链，包括编译器、调试器和性能分析工具，以及丰富的库函数，为开发者提供了极大的便利。在应用方面，CUDA已经在各种领域广泛应用，尤其是在科学计算和深度学习等领域，CUDA拥有大量的优化库和开发工具。而CTM的应用相对较少，但由于其提供了对硬件的低级别控制，因此在一些特定的应用场景中具有优势。

GPU 编程平台发展历史

9、对比微软的 DirectCompute， CUDA 胜在配套设施的支持

与DirectCompute相比，CUDA具有丰富的功能库、完善的开发工具和广泛的应用支持，尤其在科学计算和深度学习领域具有明显优势。CUDA在英伟达GPU上的性能优化也更为出色。而DirectCompute作为跨平台工具，其优势在于与DirectX的兼容性以及对多种硬件的支持。但从英伟达GPU的应用广泛度来看，使用CUDA才是开发者的首选。总的来说，虽然DirectCompute的通用性更强，但英伟达的CUDA在功能、性能和应用范围上提供了更强大的支持，对于使用英伟达硬件的开发者来说是更优的选择。

三、抓住人工智能发展浪潮，顺利转型切入算力芯片领域

IDC的测算显示，全球数据总量每年将以50%的增速不断增长。到2025年，数据量将增加至334ZB，到2035年则将达到19267ZB。随着5G技术的落地，应用方案将变得更加具象化，未来数据总量和数据分析需求将持续增加。数据增长的主要来源包括IoT、移动互联网、智慧城市和自动驾驶等领域。大数据的应用将从商业分析向工业、交通、政府管理、医疗、教育等行业渗透，并成为产业供应链中不可或缺的重要组成部分。

全球数据总量（ZB）

据目前的测算，智能驾驶将是对算力要求最高的应用领域。一方面，汽车驾驶对于安全可靠性要求极高；另一方面，L5级别的自动驾驶汽车将搭载32个传感器，据麦肯锡估算，一辆自动驾驶汽车的数据量将达到4TB/h，而Intel测算出的一天数据量将达到4000GB。然而，英伟达的Xavier目前只有1.3TFlops的处理能力，无法满足处理L5级别数据的要求。智能驾驶和ADAS市场在未来的10年内有望保持高速增长，因此智能驾驶以及ADAS领域存在着巨大的算力缺口。

智能驾驶层级越高所需传感器越多

根据Tractica的数据，2018年全球AI硬件市场的收入为196亿美元，其中GPU的收入占36.2%，即71亿美元。预计到2025年，全球AI硬件市场的收入将达到2349亿美元，其中GPU的收入占23.2%，即545亿美元。尽管GPU市场占比会出现下滑，但全球AI硬件市场仍在不断上升，为GPU市场带来更多的增长空间。

2018-2025 年 AI 硬件市场收入（十亿美元）

由于摩尔定律的放缓，CPU的应用性能增幅已经开始下降。然而，人工智能的到来并没有因此而停止。登纳德定律通过缩小晶体管的尺寸和电压，让设计师在保持功率密度的同时提高晶体管的密度和速度。但是，由于物理条件的限制，CPU架构师需要增加大量电路和能量，才能获得有限的指令级并行性(ILP)。因此，在后摩尔定律时代，CPU晶体管需要消耗更多的性能，才能实现应用性能的小幅提高。最近几年，CPU的性能增长速度仅为每年10%，而过去是每年50%。

GPU 打破摩尔定律

英伟达作为全球GPU市场的领导者，凭借其创新力和高市场份额，在行业中拥有龙头地位。其持续的技术创新和强大的研发实力，尤其是CUDA并行计算平台的推出，进一步巩固了其在市场中的优越地位。英伟达的GPU已成为人工智能和机器学习加速应用的首选解决方案，广泛应用于各个领域，从游戏和专业视觉应用到数据中心和自动驾驶汽车。英伟达成功的经验在于持续深耕GPU高性能计算潜力，构建强大的软件护城河壁垒，加大研发投入，实施创新技术，不断更新GPU架构，拓展业务范围，扩大GPU市场，提高营收和利润率，达成产业链的良性循环。

国内算力公司梳理

全球 AI 芯片市场被英伟达垄断，然而国产 AI 算力芯片正起星星之火。目前，国内已涌现出了如寒武纪、海光信息等优质的 AI 算力芯片上市公司，非上市 AI 算力芯片公司如蓝海大脑、沐曦、天数智芯、壁仞科技等亦在产品端有持续突破。

一、龙芯中科：国产 CPU 设计标杆，自主研发 GPGPU

公司主要从事处理器（CPU）及配套芯片的研制、销售及服务，主要产品包括龙芯1号、龙芯2号、龙芯3号三大系列处理器芯片及桥片等配套芯片。这些系列产品已在电子政务、能源、交通、金融、电信、教育等行业领域广泛应用。龙芯通过自主指令系统构建独立于Wintel和AA体系的开放信息技术体系的CPU，不断推出基于LoongArch架构的芯片，成功建立了自己的指令系统架构LoongArch。在2021年和2022年，公司相继推出了多款基于LA架构的芯片产品，目前已拥有9颗基于LA架构的芯片产品。

龙架构

龙芯中科坚持自主研发指令系统、IP核等核心技术，掌握指令系统、处理器核微结构、GPU以及各种接口IP等芯片核心技术，在关键技术上进行自主研发，已取得专利400余项。GPU产品进展顺利，正研制新一代图形及计算加速GPGPU核。据公司在2022年半年度业绩交流会信息，第一代GPU核(LG100)已经集成在7A2000中，新一代GPGPU核(LG200)的研制也取得了积极进展。目前，公司正在启动第二代龙芯图形处理器架构LG200系列图形处理器核的研制。龙芯中科在核心技术自主研发方面取得了显著成果，为公司未来的发展奠定了坚实的基础。

二、海光信息：国产高端处理器龙头，CPU+DCU 双轮驱动

公司主营产品为海光通用处理器（CPU）和海光协处理器（DCU）。海光CPU分为7000、5000、3000三个系列，可应用于高端服务器、中低端服务器和边缘计算服务器。海光DCU是基于GPGPU架构设计的协处理器，以8000系列为主，适用于服务器集群或数据中心。该产品全面兼容ROCm GPU计算生态，能够适配国际主流商业计算软件，解决了产品推广过程中的软件生态兼容性问题。

海光产品持续迭代，CPU方面海光一号和海光二号已实现量产，海光三号已正式发布，海光四号进入研发阶段。虽然海光CPU性能在国内处于领先地位，但在高端产品性能上与国际厂商有所差距，接近Intel中端产品水平。DCU方面，深算一号已实现商业化应用，深算二号已于2020年1月启动研发，在典型应用场景下指标达到国际上同类型高端产品水平。高研发力度成为海光产品快速迭代的基石，从2019到2021年，海光信息的研发投入增长83.3%，拥有千人级高端处理器研发团队，且90.2%的员工是研发人员。公司已取得多项处理器核心技术突破，拥有179项专利、154项软件著作权和81项集成电路布图设计专有权，构建了全面的知识产权布局，CPU与DPU的持续迭代使性能比肩国际主流厂商。

海光 CPU 与 Intel 产品性能对比

三、寒武纪：国产 AI 芯片领先者

寒武纪是一家专注于人工智能芯片产品研发与技术创新的独角兽公司，成立于2016年。公司的产品广泛应用于消费电子、数据中心、云计算等多个场景。为了支持人工智能的各种应用场景，公司推出了面向云端、边缘端和终端的三个系列不同品类的通用型智能芯片与处理器产品，包括终端智能处理器IP、云端智能芯片及加速卡、边缘智能芯片及加速卡。寒武纪的产品线丰富，应用场景广泛，能够满足在云、边、端各个尺度的人工智能计算需求。

在2022年3月，公司推出了新的训练加速卡MLU370-X8，该加速卡配备了双芯片四核思元370，并整合了寒武纪MLU-Link多核互联技术，主要针对训练任务。在广泛应用于各个领域的YOLOv3、Transformer等训练任务中，8卡计算系统的并行性能平均超过了350WRTXGPU的155%。

高性能通用图形处理器芯片及系统研发项目情况及进程安排

蓝海大脑高性能计算机是一款功能强大的GPU服务器，它具备开放融合、超能运算、高效运维、液冷设计等多项特点。在开放融合方面，该计算机系统融合了计算、网络、存储、GPU、虚拟化等多种技术，支持主流虚拟化平台，同时也支持在线压缩、重复数据自动删除、数据保护、容灾备份以及双活等功能。

在超能运算方面，该计算机系统支持主流GPU显卡虚拟化，支持2、8、16块全高全长卡，提高计算性能和图像渲染能力，同时也可以快速实现系统扩展，支持大规模并发运行。在高效运维方面，该计算机系统提供一站式部署，开箱即用，同时也具备强大的数据、网络、虚拟化及管理安全保障。

此外，该计算机系统还采用了液冷设计，可以连续安静热转换，停机时间少，所有显卡不会因过热而缩短跳动周期，显著减少体积和热量的产生，液冷系统密度更高、更节能、防噪音效果更好。此外，该计算机系统还支持2颗英特尔® 至强® 可扩展处理器家族CPU，提供16-56物理核心龙芯、飞腾、申威（可选）、英伟达A100、H100、A6000等多种显卡多种选择，可为用户提供更加灵活、高效的计算服务。

总结

总之，随着人工智能技术的不断发展，对高性能计算的需求也在不断增长。英伟达作为计算机芯片制造商之一，通过技术进步和产品创新不断提高自身竞争力。未来，国产AI供应商也有望在产业创新趋势和国产替代背景下进入快速增长通道。可以预见的是，算力产业链将会快速增长，为人工智能应用的落地提供强大的支撑。

研发为底、生态为径、AI为翼——全国一体化算力算网调度平台正式发布

云原生

热门文章

最新文章

相关课程

相关电子书

相关实验场景