在个人开发者和企业双线并行的“百模大战”时代,英伟达不仅靠着数据中心里的H100/B200疯狂敛财,其消费级桌面游戏卡(GeForce RTX系列)也成为了无数“穷鬼炼丹师”和本地大模型极客的救命稻草。
评估一张显卡的大模型(LLM)价值,逻辑极其残酷:训练看算力(FLOPS)和NVLink(卡间通信),推理看显存容量(装载模型)和显存带宽(Token生成速度)。数据中心卡拥有顶级的互联生态和极宽的位宽,而游戏卡则在性价比和极速的GDDR显存上做文章,但又经常被黄仁勋精准的“刀法”(如物理阉割NVLink)按死在本地单卡推理的定位上。
为了打造这部真正的百科全书,我们将算力卡、合规特供卡、以及对应的消费级游戏卡彻底融为一炉。按核心架构从最新一代一路向下击穿。
一:Blackwell 架构 (2024+) —— 榨干硅基物理极限与桌面性能怪兽
Blackwell架构不仅在数据中心走向了Chiplet(小芯片)拼接的终极形态,在消费级端(RTX 50系列)也迎来了GDDR7显存的狂暴带宽升级,旨在抹平千亿甚至万亿参数模型(MoE)带来的物理瓶颈。
| 显卡型号 | 核心定位 | 显存容量 | 显存带宽 | 核心指令集 (大模型强相关) | NVLink 支持 |
|---|---|---|---|---|---|
| GB200 | 数据中心超级芯片 | 384GB HBM3e (双GPU) | 16.0 TB/s (双GPU) | FP4, FP6, FP8, BF16, FP16, TF32, FP32 | 第五代 + NVLink-C2C |
| B200 | 数据中心满血旗舰 | 192GB HBM3e | 8.0 TB/s | FP4, FP6, FP8, BF16, FP16, TF32, FP32 | 第五代 (1.8 TB/s双向) |
| B100 | 数据中心次旗舰 | 192GB HBM3e | 8.0 TB/s | FP4, FP6, FP8, BF16, FP16, TF32, FP32 | 第五代 (1.8 TB/s双向) |
| RTX 5090 | 消费级游戏旗舰 | 32GB GDDR7 | 1792 GB/s | FP4, FP8, BF16, FP16, TF32, FP32, INT8 | 彻底绝缘 (不支持) |
| RTX 5080 | 消费级游戏高端 | 16GB GDDR7 | 1024 GB/s | FP4, FP8, BF16, FP16, TF32, FP32, INT8 | 彻底绝缘 (不支持) |
1:原生FP4指令集与第二代Transformer Engine
Blackwell将精度压缩到了丧心病狂的4位浮点(FP4)。在模型推理端,权重的位宽每缩小一半,显存占用就减半,读写一次显存能加载的参数量就直接翻倍。配合第二代Transformer Engine的微张量缩放技术,B200和RTX 50系列可以在不显著损失模型输出质量的前提下,实现极其夸张的推理吞吐量跃升。
2:B200的Chiplet双芯合一与HBM3e显存集群
B200物理上是由两颗Die通过高达10 TB/s的片间互连技术缝合在一起。搭载了多达8颗HBM3e显存堆栈,总容量达到192GB,带宽狂飙至8 TB/s。这种恐怖的吞吐量彻底击碎了LLM自回归生成的内存墙。
3:RTX 5090的GDDR7跨越式升级
在游戏卡端,RTX 5090升级到了32GB的GDDR7显存。由于大模型推理是“内存受限”任务,GDDR7带来的接近1.8 TB/s的带宽,使得5090在本地生成Token的速度极快,32GB的容量也足以单卡无损塞下几十B参数规模的大模型。
4:第五代NVLink与消费级彻底隔离
B200单卡双向互联带宽达到了1.8 TB/s,支持高达576张B200 GPU组成单一的超高带宽互联域。而在消费级这边,英伟达继续贯彻严格的物理隔离,RTX 50系彻底绝缘于NVLink,强迫有大规模集群需求的企业必须去买B200。
二:Hopper & Ada Lovelace 架构 (2022+) —— 算力霸主与桌面级封锁线
这一代架构在技术路线上分道扬镳:Hopper专攻数据中心的重度训练,而Ada Lovelace则覆盖了从云端推理(L40S)到顶级消费游戏卡(RTX 4090)的广阔版图。这里也诞生了历史上最复杂的“特供刀法”。
| 显卡型号 | 核心定位 | 显存容量 | 显存带宽 | 核心指令集 (大模型强相关) | NVLink 支持 |
|---|---|---|---|---|---|
| H200 | (Hopper) 大显存魔改版 | 141GB HBM3e | 4.8 TB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 第四代 (900 GB/s双向) |
| H100 (SXM) | (Hopper) 满血版算力基石 | 80GB HBM3 | 3.35 TB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 第四代 (900 GB/s双向) |
| H800 | (Hopper) 早期特供阉割版 | 80GB HBM3 | 3.35 TB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 被阉割至 400 GB/s |
| H20 | (Hopper) 现役最强特供版 | 96GB HBM3 | 4.0 TB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 第四代 (900 GB/s双向) |
| L40S | (Ada) 数据中心推理尖兵 | 48GB GDDR6 | 864 GB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 不支持 (仅PCIe 4.0) |
| RTX 4090 | (Ada) 消费级游戏旗舰 | 24GB GDDR6X | 1008 GB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 不支持 (物理阉割) |
| RTX 4090D | (Ada) 消费级特供阉割版 | 24GB GDDR6X | 1008 GB/s | FP8, BF16, FP16, TF32, FP32, INT8 | 不支持 (物理阉割) |
1:H20与H800的畸形刀法
H20是针对出口管制量身定制的中国特供卡,算力(FLOPS)被砍到H100的约15%,但保留了满血的第四代NVLink(900 GB/s)、96GB HBM3显存和4 TB/s带宽。这导致它单卡练模型极慢,但在大模型推理和大规模集群堆叠上依然拥有战略价值。早期的H800则恰恰相反,保留了算力,但把NVLink总带宽砍到了400 GB/s,直接锁死张量并行的效率。
2:RTX 4090:极客的推理神器与组网之痛
RTX 4090拥有24GB GDDR6X显存和超1 TB/s的带宽。在FP8量化的加持下,它的推理吞吐量极高。但英伟达在40系上彻底砍掉了NVLink接口。这意味着用多张4090进行分布式训练或推理时,数据只能走主板PCIe 4.0通道(最高约32 GB/s双向),遇到大模型的All-Reduce通信时会产生巨大的延迟木桶效应。4090D则是为了符合算力密度合规要求,微调了CUDA核心数和功耗限制的特供版,显存和带宽依然满血,对本地LLM推理影响不大。
3:FP8与第一代硬件级Transformer Engine
Hopper和Ada全系支持FP8指令集。Hopper更配备了硬件级的Transformer Engine,能实时分析数据分布,在计算密集层使用FP8加速,在精度敏感层保留BF16,实现不改代码的算力翻倍。
三:Ampere 架构 (2020+) —— 大模型时代的基石与“平民天花板”
如果没有A100,就不会有OpenAI的GPT-3。而在消费级领域,Ampere架构下的RTX 3090,至今依然是全世界穷鬼炼丹师心中的“唯一真神”。
| 显卡型号 | 核心定位 | 显存容量 | 显存带宽 | 核心指令集 (大模型强相关) | NVLink 支持 |
|---|---|---|---|---|---|
| A100 (80GB) | 数据中心满血版 | 80GB HBM2e | 2.0 TB/s | BF16, TF32, FP16, FP32, INT8 | 第三代 (600 GB/s双向) |
| A800 | 数据中心特供阉割版 | 80GB HBM2e | 2.0 TB/s | BF16, TF32, FP16, FP32, INT8 | 被阉割至 400 GB/s |
| RTX 3090 / Ti | 消费级游戏旗舰 | 24GB GDDR6X | 936 / 1008 GB/s | BF16, TF32, FP16, FP32, INT8 | 支持 (112 GB/s双向) |
1:RTX 3090:最后的NVLink游戏卡
RTX 3090被称为“平民算力天花板”,最核心的原因是它是英伟达最后一代支持NVLink桥接的消费级显卡。你可以通过NVLink桥接器将两张3090连接,拥有112 GB/s的卡间带宽,实现48GB显存的硬件级池化。这不仅能无缝跑起70B级别的量化模型推理,甚至能进行效率尚可的多卡微调(Fine-tuning)。在二手市场,双卡3090的性价比碾压单卡4090。
2:BF16与TF32的保命符
Ampere架构引入了对大模型训练至关重要的BF16(Bfloat16)。FP16的指数位太窄,极易在神经网络反向传播中数值溢出。BF16牺牲了小数精度,换取了极其宽广的数值范围,完美解决了训练崩溃的问题。TF32则允许代码原封不动按FP32跑,底层用Tensor Core加速,实现了算力的白嫖。A100和3090均完整支持这些指令。
四:Turing 架构 (2018) —— INT8量化推理的先驱
Turing架构是一次对低功耗高并发推理的极致探索。它不仅带来了实时的光线追踪,也把大模型部署中最常用的INT8量化推向了前台。
| 显卡型号 | 核心定位 | 显存容量 | 显存带宽 | 核心指令集 (大模型强相关) | NVLink 支持 |
|---|---|---|---|---|---|
| T4 | 数据中心刀片推理 | 16GB GDDR6 | 320 GB/s | FP16, FP32, INT8, INT4 | 不支持 |
| RTX 2080 Ti | 消费级游戏旗舰 | 11GB GDDR6 | 616 GB/s | FP16, FP32, INT8, INT4 | 支持 (100 GB/s双向) |
| Titan RTX | 极客/工作站旗舰 | 24GB GDDR6 | 672 GB/s | FP16, FP32, INT8, INT4 | 支持 (100 GB/s双向) |
1:INT8指令集的硬件级加速
T4和RTX 20系列首次将INT8(8位整数)的硬件加速作为核心卖点。通过模型量化(Quantization),将参数压缩为INT8,能够在极低功耗下爆发出巨大的吞吐量。T4凭借70W单槽的优势,长期霸占云端推理的市场。
2:2080 Ti的“魔改”显存狂欢
原生2080 Ti只有11GB显存,难以容纳现代大模型。但由于其核心支持INT8算力和NVLink,华强北曾掀起过一股“魔改22GB显存 2080 Ti”的风潮。两张魔改版2080 Ti通过NVLink连接,能以极低的成本凑出44GB的总显存用于本地推理。
五:Volta 架构 (2017) —— 张量核心(Tensor Core)的降生
Volta架构是英伟达抛弃传统堆流处理器路线,专门为矩阵运算创造新硬件单元的伟大纪元。英伟达没有为它发布正统的GeForce游戏卡,只推出了昂贵的Titan V。
| 显卡型号 | 核心定位 | 显存容量 | 显存带宽 | 核心指令集 (大模型强相关) | NVLink 支持 |
|---|---|---|---|---|---|
| V100 (32GB) | 数据中心功勋卡 | 32GB HBM2 | 900 GB/s | FP16, FP32 | 第二代 (300 GB/s双向) |
| Titan V | 桌面级核弹 | 12GB HBM2 | 652 GB/s | FP16, FP32 | 不支持 |
1:第一代Tensor Core与混合精度
V100和Titan V首次引入了张量核心。它允许以FP16输入数据,内部进行FP32累加,最后以FP16/FP32输出。这种“混合精度训练”使得深度学习算力实现了数量级的跨越,也是后续所有AI芯片设计的底层准则。
2:NVSwitch的初次登场
V100搭载了第二代NVLink(300 GB/s),配合NVSwitch芯片,实现了多卡的全局全互联,标志着英伟达从“卖芯片”正式进化为“卖超算系统”。
六:Pascal 架构 (2016) —— 深度学习与大显存的启蒙纪元
彼时Transformer尚未诞生,但Pascal架构已经开始为AI量身定制。在今天的LLM二手市场,Pascal架构的某些特殊卡因为极其变态的显存容量比,迎来了奇妙的“第二春”。
| 显卡型号 | 核心定位 | 显存容量 | 显存带宽 | 核心指令集 (大模型强相关) | NVLink 支持 |
|---|---|---|---|---|---|
| P100 | 高性能计算堆料王 | 16GB HBM2 | 732 GB/s | FP16, FP32 | 第一代 (160 GB/s双向) |
| P40 | 早期云端大显存推理 | 24GB GDDR5 | 346 GB/s | FP32, INT8 (主要靠FP32) | 不支持 |
| GTX 1080 Ti | 消费级一代神卡 | 11GB GDDR5X | 484 GB/s | FP32 (FP16被限制) | 不支持 (仅SLI) |
1:P40:垃圾佬的24G大显存神卡
在目前二手市场上,P40因为拥有罕见的24GB大显存且价格极度低廉,成为了极低预算本地跑LLM的热门选择。由于Pascal架构没有Tensor Core,P40跑大模型主要依靠CUDA核心硬算(且不支持FP16混合精度,只能跑FP32或特定的INT8量化环境,如llama.cpp),其Token生成速度极慢,但“能跑起来”本身就是它在今天唯一的价值。
2:GTX 1080 Ti的算力封印
10系游戏卡是一代经典,但英伟达在消费级端进行了极其严格的AI算力阉割。1080 Ti的FP16半精度性能被锁死在单精度性能的1/64,这意味着它完全无法利用现代的FP16或BF16格式进行高效的大模型推理,只能在纯粹的图形渲染和传统的FP32运算中发光发热。