从A100到GB200:英伟达AI芯片的技术跃迁全景解析-夜雨聆风

从A100到GB200:英伟达AI芯片的技术跃迁全景解析

过去五年，大语言模型的参数规模从数亿跃升至数万亿，每一次量级突破都伴随着算力需求的指数级增长。而驱动这一进程的核心引擎，正是英伟达的AI加速芯片——从Ampere架构的A100，到Hopper架构的H100/H200，再到最新Blackwell架构的B200与GB200。

单纯看峰值算力数字的翻倍，很容易产生一种错觉：技术进步不过是“堆晶体管”。但作为一名深度参与这些架构设计的工程师，我想告诉你一个不同的故事——真正的变革并非发生在单一芯片上，而是遍布于计算单元、内存子系统、互连架构、系统集成乃至整个机柜级的设计哲学。

本文将沿着A100之后的技术发展脉络，从核心计算单元（Tensor Core）、内存子系统（HBM）、互连架构（NVLink/NVSwitch）、系统级集成（从DGX到GB200 NVL72）以及超节点技术五个维度，为你拆解每一代架构的关键创新与设计权衡。这不是一张简单的参数对比表，而是一部关于如何将成千上万颗芯片打造成“一台计算机”的工程史诗。

1. 核心计算单元：Tensor Core的“降维”之道

AI计算的核心是矩阵乘加运算：D = A × B + C。传统的SIMD（单指令多数据流）单元在处理这类运算时效率低下，因为需要大量指令调度与数据搬移。为此，英伟达在Volta架构中首次引入了Tensor Core——一种专用的、可编程的、支持混合精度的矩阵运算单元。从Ampere到Blackwell，Tensor Core的微架构经历了三次重大重构。

1.1 Ampere时代：2:4稀疏与TF32的奠基

A100搭载的是第三代Tensor Core。它在支持精度上做了两项关键扩展：

TF32（Tensor Float 32）：这是一种截断版的FP32（1位符号、8位指数、10位尾数），保持了与FP32相近的动态范围，但吞吐量相比FP32 SIMD提升了8倍。更重要的是，科学计算软件无需修改代码即可受益，降低了迁移门槛。
2:4结构化稀疏：这是A100最被低估的创新。传统的非结构化稀疏（如CSR格式）硬件利用率低。A100强制要求每4个连续权重中有2个为零，形成固定模式。Tensor Core在执行时会跳过零值，理论上将算力翻倍。代价是模型需要经过稀疏预训练或微调，但对于BERT、GPT这类大模型，收益远大于开销。

在密集型FP16运算下，A100的峰值算力为312 TFLOPS，开启稀疏后可达624 TFLOPS。这个数字在今天看来不算惊人，但它奠定了后续几代架构“精度降低、并行度提升”的主旋律。

1.2 Hopper时代：FP8与Transformer引擎的突破

H100的第四代Tensor Core将目光牢牢锁定在Transformer模型上。其核心武器是FP8——一种极低精度的浮点格式，分为E4M3（4位指数+3位尾数，适合激活值）和E5M2（5位指数+2位尾数，适合权重）。相比FP16，FP8的数据体积减半，Tensor Core在一个时钟周期内可处理两组FP8矩阵，运算密度提升2倍以上。

但FP8并非没有代价：直接截断会产生精度损失。为此，英伟达设计了Transformer引擎——一套软硬件协同的机制。它会在每一层Transformer计算时在线统计激活值和权重的数值范围，动态决定将中间结果降精度到FP8还是保持FP16，并通过细粒度的缩放因子保证精度。最终效果是：H100在训练GPT-3时，FP8算力（1979 TFLOPS）是A100 FP16算力（312 TFLOPS）的6.3倍。

1.3 Blackwell时代：FP4/FP6与第二代Transformer引擎

到了Blackwell（B100/B200），英伟达的工程师们做出了一个更激进的选择：支持FP4和FP6。这个决定的背后是对AI工作负载的深刻洞察：当模型进入万亿参数规模，尤其是MoE（混合专家）模型，推理阶段的显存带宽往往成为瓶颈，而非计算本身。FP4将模型体积压缩到FP16的1/4，推理带宽需求同样降至1/4，同时由于Tensor Core字长固定，每个时钟可操作的元素数量翻倍，计算吞吐量可达FP8的2倍。

B200的FP4稀疏算力达到了惊人的20 PetaFLOPS。而FP6则是在压缩比与精度之间的折中，适用于某些数值动态范围大的MoE专家层。第二代Transformer引擎进一步升级，可根据模型阶段动态切换FP8/FP6/FP4，硬件中集成了更智能的自动缩放因子预测器，减少了软件开销。

1.4 微架构实现的演进

从微架构层面看，Tensor Core的基元也从Ampere的4×4×4升级到Hopper的8×8×8（或等效变体），每个时钟周期处理更大规模的矩阵分块，减少了总线往返次数。Blackwell更进一步，Tensor Core被设计成可跨两个裸片（如B200的双芯片封装）协同工作，并引入了片上分布式共享内存，缩短数据移动距离。

小结：从FP16/BF16到FP8，再到FP4/FP6，Tensor Core的演进路径清晰可见——不断降低精度以换取吞吐量，同时通过硬件与软件的协同设计来补偿精度损失。这不是偷懒，而是对AI模型数值冗余度的深度利用。

2.内存子系统：打破“内存墙”的竞赛

模型参数以每年10倍的速度增长，而HBM带宽的增速约为每年1.5倍。如果内存子系统跟不上，再强的Tensor Core也只能空转等待数据——这就是所谓的“内存墙”（Memory Wall）。英伟达的应对策略是：容量与带宽双线提速，并用先进封装缩短物理距离。

2.1 HBM代际演进：从HBM2e到HBM3e

架构	显存类型	最大容量	带宽
A100	HBM2e	80 GB	2.0 TB/s
H100	HBM3	80 GB	3.35 TB/s
H200	HBM3e	141 GB	4.8 TB/s
B100/B200	HBM3e	192 GB	8 TB/s

H200相较于H100，容量提升76%，带宽提升43%。这个非对称提升（容量增速快于带宽）是有意为之：更大的显存允许更大的batch size和更长的上下文窗口，这对于推理场景尤其重要。而B系列的8 TB/s带宽，则是为了匹配其20 PetaFLOPS算力所需的数据供给。

2.2 内存墙的本质：计算与访存的剪刀差

一个典型的计算模式是：从HBM读取权重和激活值 → Tensor Core计算 → 写回结果。如果读取数据的时间远大于计算时间，则计算单元处于“饥饿”状态。英伟达通过两种方式缓解这一问题：

更大容量的片上缓存：H100的L2缓存从A100的40MB提升到50MB，减少了对HBM的访问次数。
异步计算与数据预取：CUDA编程模型允许计算与数据搬移重叠执行，隐藏部分访存延迟。

但在大模型推理中，KV cache的频繁读写依然是主要瓶颈。这也是为什么Blackwell引入FP4压缩后，推理吞吐量能提升30倍——不是算力翻了30倍，而是数据量降到1/4，带宽压力骤减。

2.3 未来方向：近存计算与HBM堆叠

更激进的方案是将Tensor Core直接与HBM堆叠在同一基板上，甚至将逻辑芯片与DRAM裸片混合键合（hybrid bonding）。这可以大幅缩短数据路径，将带宽提升至数十TB/s。但这项技术尚在实验室阶段，成本和热密度挑战巨大。

3.互连架构：从卡间直连到超节点网络

单卡性能再强，大模型训练也必须依靠多卡并行。而并行效率的核心在于互连——如何让N张卡协同工作时，性能损失最小。英伟达的互连架构经历了三个阶段：卡间直连（NVLink）→ 节点内全互联（NVLink+板载NVSwitch）→ 超节点（独立NVSwitch + 铜背板）。

3.1 NVLink的带宽跃迁

NVLink是英伟达专有的高带宽、低延迟、支持内存一致性的点对点互连。其带宽演进如下：

代际	架构	单链路速率	GPU链路数	总带宽
NVLink 3.0	A100	50 GB/s	12	600 GB/s
NVLink 4.0	H100	100 GB/s	18	900 GB/s
NVLink 5.0	Blackwell	200 GB/s	18	1.8 TB/s

从4.0开始，NVLink采用了PAM4信令，在相同频率下传输2倍数据，但对信号完整性要求更高。同时，NVLink支持内存语义——GPU可以直接访问远端GPU内存中的地址，无需软件显式调用DMA，大幅降低通信开销。

3.2 NVSwitch：从板载芯片到独立交换机

在P100/V100时代，NVLink仅支持GPU两两直连，形成环形拓扑。随着GPU数量增加，通信跳数增多，延迟上升。NVSwitch的出现解决了这一问题——它是一个非阻塞的交叉开关，可连接多个NVLink端口。

DGX A100：板载6颗NVSwitch，每颗连接8个GPU，实现单机8卡全互联，任意两卡带宽均为600 GB/s。
DGX H100：板载4颗NVSwitch（每颗支持更多端口），维持900 GB/s全互联。
独立NVSwitch（Hopper）：首次将NVSwitch从主板上分离，做成独立的交换机芯片，最多可连接64个GPU，构建跨机箱的超节点。
Blackwell NVSwitch：支持576个GPU在同一个NVLink域内，为超大规模MoE模型部署铺平道路。

3.3 GB200 NVL72的铜缆背板：工程学的胜利

GB200 NVL72是一个72 GPU + 36 CPU的整机柜系统。它的互连设计最引人注目的创新是无源铜缆背板（DAC）——机柜背部铺设超过5000根铜缆，总长超3.2公里，将计算托盘与NVSwitch托盘连接起来。

为什么用铜缆而不是光纤？两点原因：

成本：光模块的成本是铜缆的6倍以上。
功耗：铜缆无需电-光-电转换，每机柜节省约20kW功耗。在整柜功耗高达120kW的情况下，每瓦都很关键。

当然，铜缆只适用于短距离（<3米）。对于跨机柜的连接，依然需要InfiniBand或Spectrum-X以太网。

3.4 Scale-Up vs Scale-Out：两种通信范式

在构建AI集群时，必须区分两种互联：

Scale-Up（纵向扩展）：同一节点内或邻近节点间，使用NVLink+NVSwitch构建全互联，提供极高带宽（TB/s级）和亚微秒延迟，用于张量并行和注意力层计算。
Scale-Out（横向扩展）：节点之间，使用InfiniBand或以太网，带宽较低（数百Gbps），延迟稍高（微秒级），用于数据并行、流水线并行。

英伟达的设计哲学是：将昂贵的NVLink带宽保留在局部，全局通过Scale-Out网络扩展。

4.系统级集成：从PCIe卡到AI工厂

最早期的GPU只是PCIe加速卡，插在服务器上扮演“协处理器”的角色。随着模型规模膨胀，这种松耦合方式暴露了带宽、延迟和可管理性的三重瓶颈。英伟达的系统集成路径清晰地展示了从“卖芯片”到“交付AI工厂”的转型。

4.1 第一阶段：PCIe加速卡（P100/V100）

标准全高全长PCIe卡，通过PCIe插槽与CPU通信。多卡通信需经PCIe交换机或CPU内存拷贝，带宽低（PCIe 3.0 x16约16 GB/s单向），延迟高（几十微秒）。这种形态只适合数据并行，张量并行效率极低。

4.2 第二阶段：SXM模块与DGX工作站

SXM（Server PCIe Module）将GPU直接焊接在专用载板上，通过高密度板边连接器与主板通信。优势有三：

更高的TDP（H100 SXM 700W vs PCIe版350W）。
板载NVSwitch，实现单机8卡全互联。
一体化散热（液冷或均热板）。

DGX-1（P100）是首款产品，到DGX H100已经标配冷板式液冷。DGX将8颗GPU包装成“开箱即用”的超级计算机，客户不再需要自行设计复杂的互连。

4.3 第三阶段：SuperPOD与集群

当需要数百到数千个GPU时，就要连接多台DGX。英伟达推出DGX SuperPOD（现为NVIDIA DGX BasePOD），核心设计：

Scale-Out网络：InfiniBand构建胖树拓扑，保证无阻塞。
Rail-optimized：每台DGX中的8个GPU分别连接到8个不同的网络交换机，确保跨机箱通信时每个GPU都有独立上行带宽。
液冷普及：H100 SuperPOD全面采用冷板式液冷，PUE降至1.1以下。

典型规模：A100 SuperPOD（140台DGX，1120 GPU，320kW），H100 SuperPOD（32台DGX，256 GPU，约1MW）。

4.4 第四阶段：Grace Hopper超级芯片

GH200是系统集成史上的分水岭。它将Grace CPU和Hopper GPU通过NVLink-C2C（900 GB/s，亚微秒延迟）永久桥接，封装在同一基板上。关键特性：

统一内存地址空间：CPU和GPU共享物理地址，GPU可直接加载/存储CPU内存（LPDDR5X），无需cudaMemcpy。
超大容量内存池：GPU 96/144GB HBM3 + CPU 480/960GB LPDDR5X，构成624GB~1.1TB的统一内存池。

这为图神经网络、推荐系统、科学模拟等需要频繁CPU-GPU交换的应用带来5~10倍提升。

4.5 第五阶段：GB200 NVL72整机柜——AI工厂

GB200 NVL72将整个机柜视为一台超大规模的单一计算机。其架构如下：

18个计算托盘：每个托盘包含2颗GB200超级芯片（2×B200 GPU + 1×Grace CPU），共72 GPU + 36 CPU。
9个NVSwitch托盘：每个托盘2颗NVSwitch 5.0芯片，每颗支持144个NVLink端口。
铜缆背板：托盘之间通过无源铜缆连接，总NVLink带宽1.8 TB/s，形成72卡全互联。
液冷：芯片直连液冷（D2C）为主，风冷为辅，单机柜散热能力高达140kW。
电源：48V高压直流供电，总功率约120kW。

为什么叫AI工厂？因为NVL72实现了：

单一逻辑GPU：72颗B200通过NVLink域呈现为单个“大GPU”，开发者无需感知多卡编程（编译器自动并行）。
出厂预装：包括网络配置、电源管理、散热、NVIDIA AI Enterprise软件栈，插电即用。
可堆叠：多个NVL72机柜通过InfiniBand互联，轻松扩展至万卡集群。

性能数据：GB200 NVL72在GPT-3 175B训练上，速度是相同数量H100的4倍；对于MoE模型推理，吞吐量可达H100的30倍，时延降至1/10；每瓦性能是H100的25倍。

4.6 系统集成的核心支撑技术

要实现上述集成密度，必须攻克三大难题：

供电与信号完整性：单柜峰值电流超1000A，采用母线铜排+高压直流分布式供电；铜背板在200Gbps PAM4信号下需严格控制损耗与串扰，使用无源均衡和有源重定时器。
液冷设计：冷却液为去离子水或低电导率工质，每个冷板直接接触GPU/CPU裸die；泄漏检测采用光纤传感器和电容传感器双备份；歧管设计保证各芯片流量均衡，温差±2°C内。
可靠性工程：引入预测性维护，BMC结合遥测数据用AI模型预测风扇轴承磨损、电容老化；电源模块、风扇、计算托盘均支持热插拔。

5.超节点技术解析：GB200 NVL72的“黑箱”拆解

所谓“超节点”（Super Node），是指通过高带宽互连将多个GPU紧密耦合为一个逻辑计算单元。GB200 NVL72是当前最先进的超节点实现。下面我们逐层打开它的设计。

5.1 NVLink-C2C统一内存池

在NVL72中，最底层的计算单元是GB200超级芯片。Grace CPU与两颗B200 GPU通过900 GB/s的NVLink-C2C互连，形成第一个层级的内存池——CPU可访问GPU的HBM，GPU可访问CPU的LPDDR5X，带宽接近本地访问。

然后，通过顶层的NVSwitch网络，将所有超级芯片共享内存连接起来。最终在机架层面构成了30TB的巨大共享内存池（72颗GPU，每颗约400GB HBM？实际B200是192GB，72颗共13.8TB；加上CPU内存总容量更大）。这个统一内存池使得MoE模型的不同专家可以分布在72颗GPU上，通信瓶颈大幅缓解。

5.2 铜缆矩阵的物理实现

NVL72机柜背部布满了超过5000根铜缆，总长超3.2公里。这些铜缆分为两类：

计算托盘到NVSwitch托盘：高速信号线，每根支持200Gbps PAM4。
管理信号线：用于BMC监控、电源管理等。

铜缆的挑战在于：信号长度不同会导致时延差异，需要精确的走线长度匹配和均衡电路。英伟达采用了无源均衡（简单RC网络）与有源重定时器（Retimer）相结合的方式，保证所有通道的眼图张开度符合规范。

5.3 全液冷散热架构

NVL72的散热设计遵循“冷热分离”原则：

芯片直连液冷（D2C）：冷却液流经GPU/CPU上方的冷板，带走约95%的热量，散热能力达102kW。
风冷辅助：为VRM、内存、网卡等次要部件散热，约25kW。

冷却液经过机柜后，通过后门热交换器（RDHx）将热量排至数据中心的冷冻水系统。相较于传统风冷，液冷可将PUE降至1.1以下，并且允许更高的芯片功率密度。

5.4 软件定义的超节点

硬件再强，也需要软件抽象。NVL72通过以下软件栈对上层透明：

NVIDIA Collective Communications Library (NCCL)：封装底层NVLink、PCIe、InfiniBand，提供AllReduce等原语。
NVIDIA Mission Control：集群管理平台，自动部署、监控、调试数千GPU。
CUDA编译器：自动将张量并行任务映射到72个GPU上，开发者无感知。

5.5 为什么超节点是MoE模型的理想平台

MoE（混合专家）模型的特点是：每个token只激活少量专家（例如8选2），专家分布在不同的GPU上。如果GPU间通信带宽不足，all-to-all交换会成为瓶颈。NVL72的1.8 TB/s NVLink带宽保证了跨GPU专家通信几乎不产生延迟。加上FP4压缩，推理吞吐量相比H100提升30倍也就不足为奇了。

结语

回顾A100之后的每一代产品，你会发现：峰值算力数字的翻倍只是表象，真正的变革发生在Tensor Core的微架构、HBM的带宽与容量、NVLink的拓扑演进，以及从PCIe卡到AI工厂的系统集成。这些技术相互交织，共同构成了英伟达的护城河。

对于开发者和架构师而言，理解这些技术背后的权衡比记住参数更重要：为什么H100引入FP8？为什么Blackwell支持FP4？为什么GB200用铜缆而不是光模块？每个决策都是成本、功耗、性能与物理极限之间的平衡。

作者为半导体行业资深工程师，参与多代AI芯片系统设计。观点仅代表个人。