乐于分享
好东西不私藏

从A100到GB200:英伟达AI芯片的技术跃迁全景解析

从A100到GB200:英伟达AI芯片的技术跃迁全景解析

过去五年,大语言模型的参数规模从数亿跃升至数万亿,每一次量级突破都伴随着算力需求的指数级增长。而驱动这一进程的核心引擎,正是英伟达的AI加速芯片——从Ampere架构的A100,到Hopper架构的H100/H200,再到最新Blackwell架构的B200与GB200。

单纯看峰值算力数字的翻倍,很容易产生一种错觉:技术进步不过是“堆晶体管”。但作为一名深度参与这些架构设计的工程师,我想告诉你一个不同的故事——真正的变革并非发生在单一芯片上,而是遍布于计算单元、内存子系统、互连架构、系统集成乃至整个机柜级的设计哲学。

本文将沿着A100之后的技术发展脉络,从核心计算单元(Tensor Core)内存子系统(HBM)互连架构(NVLink/NVSwitch)系统级集成(从DGX到GB200 NVL72)以及超节点技术五个维度,为你拆解每一代架构的关键创新与设计权衡。这不是一张简单的参数对比表,而是一部关于如何将成千上万颗芯片打造成“一台计算机”的工程史诗。


1. 核心计算单元:Tensor Core的“降维”之道

AI计算的核心是矩阵乘加运算:D = A × B + C。传统的SIMD(单指令多数据流)单元在处理这类运算时效率低下,因为需要大量指令调度与数据搬移。为此,英伟达在Volta架构中首次引入了Tensor Core——一种专用的、可编程的、支持混合精度的矩阵运算单元。从Ampere到Blackwell,Tensor Core的微架构经历了三次重大重构。

1.1 Ampere时代:2:4稀疏与TF32的奠基

A100搭载的是第三代Tensor Core。它在支持精度上做了两项关键扩展:

  • TF32(Tensor Float 32):这是一种截断版的FP32(1位符号、8位指数、10位尾数),保持了与FP32相近的动态范围,但吞吐量相比FP32 SIMD提升了8倍。更重要的是,科学计算软件无需修改代码即可受益,降低了迁移门槛。

  • 2:4结构化稀疏:这是A100最被低估的创新。传统的非结构化稀疏(如CSR格式)硬件利用率低。A100强制要求每4个连续权重中有2个为零,形成固定模式。Tensor Core在执行时会跳过零值,理论上将算力翻倍。代价是模型需要经过稀疏预训练或微调,但对于BERT、GPT这类大模型,收益远大于开销。

在密集型FP16运算下,A100的峰值算力为312 TFLOPS,开启稀疏后可达624 TFLOPS。这个数字在今天看来不算惊人,但它奠定了后续几代架构“精度降低、并行度提升”的主旋律。

1.2 Hopper时代:FP8与Transformer引擎的突破

H100的第四代Tensor Core将目光牢牢锁定在Transformer模型上。其核心武器是FP8——一种极低精度的浮点格式,分为E4M3(4位指数+3位尾数,适合激活值)和E5M2(5位指数+2位尾数,适合权重)。相比FP16,FP8的数据体积减半,Tensor Core在一个时钟周期内可处理两组FP8矩阵,运算密度提升2倍以上。

但FP8并非没有代价:直接截断会产生精度损失。为此,英伟达设计了Transformer引擎——一套软硬件协同的机制。它会在每一层Transformer计算时在线统计激活值和权重的数值范围,动态决定将中间结果降精度到FP8还是保持FP16,并通过细粒度的缩放因子保证精度。最终效果是:H100在训练GPT-3时,FP8算力(1979 TFLOPS)是A100 FP16算力(312 TFLOPS)的6.3倍

1.3 Blackwell时代:FP4/FP6与第二代Transformer引擎

到了Blackwell(B100/B200),英伟达的工程师们做出了一个更激进的选择:支持FP4和FP6。这个决定的背后是对AI工作负载的深刻洞察:当模型进入万亿参数规模,尤其是MoE(混合专家)模型,推理阶段的显存带宽往往成为瓶颈,而非计算本身。FP4将模型体积压缩到FP16的1/4,推理带宽需求同样降至1/4,同时由于Tensor Core字长固定,每个时钟可操作的元素数量翻倍,计算吞吐量可达FP8的2倍。

B200的FP4稀疏算力达到了惊人的20 PetaFLOPS。而FP6则是在压缩比与精度之间的折中,适用于某些数值动态范围大的MoE专家层。第二代Transformer引擎进一步升级,可根据模型阶段动态切换FP8/FP6/FP4,硬件中集成了更智能的自动缩放因子预测器,减少了软件开销。

1.4 微架构实现的演进

从微架构层面看,Tensor Core的基元也从Ampere的4×4×4升级到Hopper的8×8×8(或等效变体),每个时钟周期处理更大规模的矩阵分块,减少了总线往返次数。Blackwell更进一步,Tensor Core被设计成可跨两个裸片(如B200的双芯片封装)协同工作,并引入了片上分布式共享内存,缩短数据移动距离。

小结:从FP16/BF16到FP8,再到FP4/FP6,Tensor Core的演进路径清晰可见——不断降低精度以换取吞吐量,同时通过硬件与软件的协同设计来补偿精度损失。这不是偷懒,而是对AI模型数值冗余度的深度利用。


2.内存子系统:打破“内存墙”的竞赛

模型参数以每年10倍的速度增长,而HBM带宽的增速约为每年1.5倍。如果内存子系统跟不上,再强的Tensor Core也只能空转等待数据——这就是所谓的“内存墙”(Memory Wall)。英伟达的应对策略是:容量与带宽双线提速,并用先进封装缩短物理距离

2.1 HBM代际演进:从HBM2e到HBM3e

架构
显存类型
最大容量
带宽
A100
HBM2e
80 GB
2.0 TB/s
H100
HBM3
80 GB
3.35 TB/s
H200
HBM3e
141 GB
4.8 TB/s
B100/B200
HBM3e
192 GB
8 TB/s

H200相较于H100,容量提升76%,带宽提升43%。这个非对称提升(容量增速快于带宽)是有意为之:更大的显存允许更大的batch size和更长的上下文窗口,这对于推理场景尤其重要。而B系列的8 TB/s带宽,则是为了匹配其20 PetaFLOPS算力所需的数据供给。

2.2 内存墙的本质:计算与访存的剪刀差

一个典型的计算模式是:从HBM读取权重和激活值 → Tensor Core计算 → 写回结果。如果读取数据的时间远大于计算时间,则计算单元处于“饥饿”状态。英伟达通过两种方式缓解这一问题:

  • 更大容量的片上缓存:H100的L2缓存从A100的40MB提升到50MB,减少了对HBM的访问次数。

  • 异步计算与数据预取:CUDA编程模型允许计算与数据搬移重叠执行,隐藏部分访存延迟。

但在大模型推理中,KV cache的频繁读写依然是主要瓶颈。这也是为什么Blackwell引入FP4压缩后,推理吞吐量能提升30倍——不是算力翻了30倍,而是数据量降到1/4,带宽压力骤减。

2.3 未来方向:近存计算与HBM堆叠

更激进的方案是将Tensor Core直接与HBM堆叠在同一基板上,甚至将逻辑芯片与DRAM裸片混合键合(hybrid bonding)。这可以大幅缩短数据路径,将带宽提升至数十TB/s。但这项技术尚在实验室阶段,成本和热密度挑战巨大。


3.互连架构:从卡间直连到超节点网络

单卡性能再强,大模型训练也必须依靠多卡并行。而并行效率的核心在于互连——如何让N张卡协同工作时,性能损失最小。英伟达的互连架构经历了三个阶段:卡间直连(NVLink)→ 节点内全互联(NVLink+板载NVSwitch)→ 超节点(独立NVSwitch + 铜背板)。

3.1 NVLink的带宽跃迁

NVLink是英伟达专有的高带宽、低延迟、支持内存一致性的点对点互连。其带宽演进如下:

代际
架构
单链路速率
GPU链路数
总带宽
NVLink 3.0
A100
50 GB/s
12
600 GB/s
NVLink 4.0
H100
100 GB/s
18
900 GB/s
NVLink 5.0
Blackwell
200 GB/s
18
1.8 TB/s

从4.0开始,NVLink采用了PAM4信令,在相同频率下传输2倍数据,但对信号完整性要求更高。同时,NVLink支持内存语义——GPU可以直接访问远端GPU内存中的地址,无需软件显式调用DMA,大幅降低通信开销。

3.2 NVSwitch:从板载芯片到独立交换机

在P100/V100时代,NVLink仅支持GPU两两直连,形成环形拓扑。随着GPU数量增加,通信跳数增多,延迟上升。NVSwitch的出现解决了这一问题——它是一个非阻塞的交叉开关,可连接多个NVLink端口。

  • DGX A100:板载6颗NVSwitch,每颗连接8个GPU,实现单机8卡全互联,任意两卡带宽均为600 GB/s。

  • DGX H100:板载4颗NVSwitch(每颗支持更多端口),维持900 GB/s全互联。

  • 独立NVSwitch(Hopper):首次将NVSwitch从主板上分离,做成独立的交换机芯片,最多可连接64个GPU,构建跨机箱的超节点。

  • Blackwell NVSwitch:支持576个GPU在同一个NVLink域内,为超大规模MoE模型部署铺平道路。

3.3 GB200 NVL72的铜缆背板:工程学的胜利

GB200 NVL72是一个72 GPU + 36 CPU的整机柜系统。它的互连设计最引人注目的创新是无源铜缆背板(DAC)——机柜背部铺设超过5000根铜缆,总长超3.2公里,将计算托盘与NVSwitch托盘连接起来。

为什么用铜缆而不是光纤?两点原因:

  1. 成本:光模块的成本是铜缆的6倍以上。

  2. 功耗:铜缆无需电-光-电转换,每机柜节省约20kW功耗。在整柜功耗高达120kW的情况下,每瓦都很关键。

当然,铜缆只适用于短距离(<3米)。对于跨机柜的连接,依然需要InfiniBand或Spectrum-X以太网。

3.4 Scale-Up vs Scale-Out:两种通信范式

在构建AI集群时,必须区分两种互联:

  • Scale-Up(纵向扩展):同一节点内或邻近节点间,使用NVLink+NVSwitch构建全互联,提供极高带宽(TB/s级)和亚微秒延迟,用于张量并行和注意力层计算。

  • Scale-Out(横向扩展):节点之间,使用InfiniBand或以太网,带宽较低(数百Gbps),延迟稍高(微秒级),用于数据并行、流水线并行。

英伟达的设计哲学是:将昂贵的NVLink带宽保留在局部,全局通过Scale-Out网络扩展


4.系统级集成:从PCIe卡到AI工厂

最早期的GPU只是PCIe加速卡,插在服务器上扮演“协处理器”的角色。随着模型规模膨胀,这种松耦合方式暴露了带宽、延迟和可管理性的三重瓶颈。英伟达的系统集成路径清晰地展示了从“卖芯片”到“交付AI工厂”的转型。

4.1 第一阶段:PCIe加速卡(P100/V100)

标准全高全长PCIe卡,通过PCIe插槽与CPU通信。多卡通信需经PCIe交换机或CPU内存拷贝,带宽低(PCIe 3.0 x16约16 GB/s单向),延迟高(几十微秒)。这种形态只适合数据并行,张量并行效率极低。

4.2 第二阶段:SXM模块与DGX工作站

SXM(Server PCIe Module)将GPU直接焊接在专用载板上,通过高密度板边连接器与主板通信。优势有三:

  • 更高的TDP(H100 SXM 700W vs PCIe版350W)。

  • 板载NVSwitch,实现单机8卡全互联。

  • 一体化散热(液冷或均热板)。

DGX-1(P100)是首款产品,到DGX H100已经标配冷板式液冷。DGX将8颗GPU包装成“开箱即用”的超级计算机,客户不再需要自行设计复杂的互连。

4.3 第三阶段:SuperPOD与集群

当需要数百到数千个GPU时,就要连接多台DGX。英伟达推出DGX SuperPOD(现为NVIDIA DGX BasePOD),核心设计:

  • Scale-Out网络:InfiniBand构建胖树拓扑,保证无阻塞。

  • Rail-optimized:每台DGX中的8个GPU分别连接到8个不同的网络交换机,确保跨机箱通信时每个GPU都有独立上行带宽。

  • 液冷普及:H100 SuperPOD全面采用冷板式液冷,PUE降至1.1以下。

典型规模:A100 SuperPOD(140台DGX,1120 GPU,320kW),H100 SuperPOD(32台DGX,256 GPU,约1MW)。

4.4 第四阶段:Grace Hopper超级芯片

GH200是系统集成史上的分水岭。它将Grace CPU和Hopper GPU通过NVLink-C2C(900 GB/s,亚微秒延迟)永久桥接,封装在同一基板上。关键特性:

  • 统一内存地址空间:CPU和GPU共享物理地址,GPU可直接加载/存储CPU内存(LPDDR5X),无需cudaMemcpy。

  • 超大容量内存池:GPU 96/144GB HBM3 + CPU 480/960GB LPDDR5X,构成624GB~1.1TB的统一内存池。

这为图神经网络、推荐系统、科学模拟等需要频繁CPU-GPU交换的应用带来5~10倍提升。

4.5 第五阶段:GB200 NVL72整机柜——AI工厂

GB200 NVL72将整个机柜视为一台超大规模的单一计算机。其架构如下:

  • 18个计算托盘:每个托盘包含2颗GB200超级芯片(2×B200 GPU + 1×Grace CPU),共72 GPU + 36 CPU。

  • 9个NVSwitch托盘:每个托盘2颗NVSwitch 5.0芯片,每颗支持144个NVLink端口。

  • 铜缆背板:托盘之间通过无源铜缆连接,总NVLink带宽1.8 TB/s,形成72卡全互联。

  • 液冷:芯片直连液冷(D2C)为主,风冷为辅,单机柜散热能力高达140kW。

  • 电源:48V高压直流供电,总功率约120kW。

为什么叫AI工厂?因为NVL72实现了:

  • 单一逻辑GPU:72颗B200通过NVLink域呈现为单个“大GPU”,开发者无需感知多卡编程(编译器自动并行)。

  • 出厂预装:包括网络配置、电源管理、散热、NVIDIA AI Enterprise软件栈,插电即用。

  • 可堆叠:多个NVL72机柜通过InfiniBand互联,轻松扩展至万卡集群。

性能数据:GB200 NVL72在GPT-3 175B训练上,速度是相同数量H100的4倍;对于MoE模型推理,吞吐量可达H100的30倍,时延降至1/10;每瓦性能是H100的25倍。

4.6 系统集成的核心支撑技术

要实现上述集成密度,必须攻克三大难题:

  • 供电与信号完整性:单柜峰值电流超1000A,采用母线铜排+高压直流分布式供电;铜背板在200Gbps PAM4信号下需严格控制损耗与串扰,使用无源均衡和有源重定时器。

  • 液冷设计:冷却液为去离子水或低电导率工质,每个冷板直接接触GPU/CPU裸die;泄漏检测采用光纤传感器和电容传感器双备份;歧管设计保证各芯片流量均衡,温差±2°C内。

  • 可靠性工程:引入预测性维护,BMC结合遥测数据用AI模型预测风扇轴承磨损、电容老化;电源模块、风扇、计算托盘均支持热插拔。


5.超节点技术解析:GB200 NVL72的“黑箱”拆解

所谓“超节点”(Super Node),是指通过高带宽互连将多个GPU紧密耦合为一个逻辑计算单元。GB200 NVL72是当前最先进的超节点实现。下面我们逐层打开它的设计。

5.1 NVLink-C2C统一内存池

在NVL72中,最底层的计算单元是GB200超级芯片。Grace CPU与两颗B200 GPU通过900 GB/s的NVLink-C2C互连,形成第一个层级的内存池——CPU可访问GPU的HBM,GPU可访问CPU的LPDDR5X,带宽接近本地访问。

然后,通过顶层的NVSwitch网络,将所有超级芯片共享内存连接起来。最终在机架层面构成了30TB的巨大共享内存池(72颗GPU,每颗约400GB HBM?实际B200是192GB,72颗共13.8TB;加上CPU内存总容量更大)。这个统一内存池使得MoE模型的不同专家可以分布在72颗GPU上,通信瓶颈大幅缓解。

5.2 铜缆矩阵的物理实现

NVL72机柜背部布满了超过5000根铜缆,总长超3.2公里。这些铜缆分为两类:

  • 计算托盘到NVSwitch托盘:高速信号线,每根支持200Gbps PAM4。

  • 管理信号线:用于BMC监控、电源管理等。

铜缆的挑战在于:信号长度不同会导致时延差异,需要精确的走线长度匹配和均衡电路。英伟达采用了无源均衡(简单RC网络)与有源重定时器(Retimer)相结合的方式,保证所有通道的眼图张开度符合规范。

5.3 全液冷散热架构

NVL72的散热设计遵循“冷热分离”原则:

  • 芯片直连液冷(D2C):冷却液流经GPU/CPU上方的冷板,带走约95%的热量,散热能力达102kW。

  • 风冷辅助:为VRM、内存、网卡等次要部件散热,约25kW。

冷却液经过机柜后,通过后门热交换器(RDHx)将热量排至数据中心的冷冻水系统。相较于传统风冷,液冷可将PUE降至1.1以下,并且允许更高的芯片功率密度。

5.4 软件定义的超节点

硬件再强,也需要软件抽象。NVL72通过以下软件栈对上层透明:

  • NVIDIA Collective Communications Library (NCCL):封装底层NVLink、PCIe、InfiniBand,提供AllReduce等原语。

  • NVIDIA Mission Control:集群管理平台,自动部署、监控、调试数千GPU。

  • CUDA编译器:自动将张量并行任务映射到72个GPU上,开发者无感知。

5.5 为什么超节点是MoE模型的理想平台

MoE(混合专家)模型的特点是:每个token只激活少量专家(例如8选2),专家分布在不同的GPU上。如果GPU间通信带宽不足,all-to-all交换会成为瓶颈。NVL72的1.8 TB/s NVLink带宽保证了跨GPU专家通信几乎不产生延迟。加上FP4压缩,推理吞吐量相比H100提升30倍也就不足为奇了。


结语

回顾A100之后的每一代产品,你会发现:峰值算力数字的翻倍只是表象,真正的变革发生在Tensor Core的微架构、HBM的带宽与容量、NVLink的拓扑演进,以及从PCIe卡到AI工厂的系统集成。这些技术相互交织,共同构成了英伟达的护城河。

对于开发者和架构师而言,理解这些技术背后的权衡比记住参数更重要:为什么H100引入FP8?为什么Blackwell支持FP4?为什么GB200用铜缆而不是光模块?每个决策都是成本、功耗、性能与物理极限之间的平衡。


作者为半导体行业资深工程师,参与多代AI芯片系统设计。观点仅代表个人。