从晶体管到万亿参数:AI算力与连接的扩张史

一、起点：硅基世界从零到一

1947年，贝尔实验室的巴丁、布拉顿和肖克利造出了第一枚点接触晶体管。这个当时不起眼的半导体器件，最终长成了一个万亿级的产业。一枚芯片上的晶体管数量从单个变成数十亿个——摩尔定律统治了半个多世纪。

但晶体管≠智能。在很长一段时间里，计算能力足够做科学计算和数据处理，却远不足以支撑"机器思考"。

1958年，弗兰克·罗森布拉特提出了感知机（Perceptron），被认为是AI的第一个算法模型。它的局限性在今天看来极其原始：单层神经网络连异或（XOR）问题都解决不了。随后的AI寒冬持续了二十年，原因归结到底只有一条：算力不够。

那时候的"灰质"还没长出来——芯片的晶体管密度远远达不到模拟一个简单神经网络所需的规模。至于"白质"，更不存在，因为连需要互联的核心都没有。

二、灰质扩张：GPU把硅基算力推过临界点

GPU原本不是为AI造的。英伟达在1999年推出GeForce 256时，目标市场只有一个——电子游戏。2006年，CUDA（统一计算设备架构）发布，第一次允许开发者用GPU做通用计算，而不只是画三角形。

但真正引爆这一切的是2012年的ImageNet挑战赛。亚历克斯·克里热夫斯基（Alex Krizhevsky）用两块GTX 580显卡训练了一个深度卷积网络——AlexNet，以碾压性的优势击败了所有传统计算机视觉算法。误差率从前一年的25.8%直降到15.3%，第二名还在26%以上。

这是硅基"灰质"扩张的起点。

此前不是没有人尝试过用神经网络做图像识别。但算力是硬约束——单核CPU跑一个像样点的网络，训练周期要以周计。两块GPU并行，把训练时间压缩到了一个可接受的范畴内。这个信号被产业界迅速读取：通往更强智能的路，是靠更强的算力铺出来的。

此后GPU进入狂飙迭代周期：

架构	代表型号	发布时间	关键指标
Kepler	K80	2014	双GPU卡设计，~8.7 TFLOPS
Pascal	P100	2016	首先支持NVLink，~21 TFLOPS
Volta	V100	2017	专用Tensor Core，~125 TFLOPS
Ampere	A100	2020	MIG多实例，~312 TFLOPS
Hopper	H100	2022	Transformer引擎，~2000 TFLOPS
Blackwell	B200	2024	双芯片封装，~4500 TFLOPS

十年间，单卡算力增长了五百倍。如果把AlexNet时期的GPU比作正在快速增生的灰质，那这段时间就是大脑皮层在疯狂扩张——神经元数量（算力核心）和每颗神经元的处理能力（单核性能）都在急剧增长。

但这一阶段有一个重要特征：芯片内部算力增长远远快于芯片之间的连接速度。 PCIe总线——当时GPU互联的唯一通道——带宽增长缓慢，在K80时代还够用，到P100/V100时已经成为明显的瓶颈。单卡再强，模型如果大到装不进一张卡，就必须多卡并行，而并行效率取决于互联带宽。

以当时的标准说法："GPU在一秒钟内能算完的数据，需要花好几秒钟从其他卡那里拿到。"这意味着灰质在猛增，但白质还没跟上。

三、白质扩张：物理互连硬件的四次进化

到2014年左右，产业界已经意识到一个问题：大模型没办法装进一张GPU里。 最简单的解决方案是把模型切碎，分散到多张GPU上并行训练。但这样一来，卡与卡之间需要频繁交换梯度和参数。如果连接太慢，多卡并行反而比单卡还慢。白质的物理互连硬件从这里开始了一场持续至今的升级。

这是硅基"白质"扩张的起点。 但"连接"不是一张白纸凭空出现的——它有四条具体的物理演进路径。

路径一：从独立板卡到封装集成

最早的GPU是插在PCIe插槽上的独立板卡，像一个个"孤立的神经元"，彼此通信需要经过主板走线到CPU再到另一张卡，物理距离以米计，信号要绕很远的路。

2014年英伟达NVLink发布后，GPU之间有了专用物理桥接器——一根高速线缆把两张卡直连起来。从"CPU转接"变成了"点对点直连"。

到2017年的V100时代，GPU不再以独立PCIe卡的形式出售，而是以SXM模组的形式焊接到一块专用基板上。8张GPU共享同一个基板，物理间距从"米级"缩到了"厘米级"。走线距离变短意味着延迟降低、带宽效率提升——相当于白质纤维束从不规则的散线变成了紧密编织的电缆。

到2024年的B200，两片计算die直接封装在同一个芯片外壳内，die之间的互联带宽已经超过任何外部线缆。白质被推到了最深的物理层次——芯片封装内部。

这条路径的底层逻辑：物理距离越短，信号传输越快越省电。与人脑白质将轴突髓鞘化、优化信号传导效率的进化逻辑完全一致。

路径二：从铜缆到光缆

把GPU连起来的第一条线是铜缆。铜的好处是便宜、成熟、功耗低——板级走线、机柜内的SAS/SATA线、InfiniBand的DAC（无源铜缆），都是铜。但铜有物理极限：距离一长信号就衰减，而且线太重太长根本理不顺。

2010年代末，AI集群规模从几百张卡扩大到几千上万张，铜缆已经撑不住了。有源光缆（AOC）登场——在铜缆两端加装光电转换器，传输介质换成光纤。同样一根线，重量减轻一大半，传输距离从几米延伸到几十上百米，信号质量反而更好。

升级到光缆的物理意义不亚于生物神经纤维从无髓鞘进化到有髓鞘——不是换个材料那么简单，是整个物理传输速度的量级跃升。

进入2020年代，可插拔光模块进一步推动了互联硬件的发展。数据中心的光模块规格快速迭代：100G → 400G → 800G → 1.6T。每个新代际意味着物理接口的重新设计——更小的尺寸、更高的密度、更低的每比特功耗。

最新的趋势是硅光技术：把原本独立的光模块直接集成到芯片封装上，用光信号代替电信号在芯片之间传输数据。这不只是线缆的升级，是物理连通的底层变革。

路径三：交换硬件——白质的枢纽

多张GPU互联需要交换设备。最早的GPU"互联"使用的是PCIe交换机，交换容量在Tbps级别。

NVLink诞生后，英伟达推出了NVSwitch——一颗专门为多GPU互联设计的物理交换芯片。以H100的NVSwitch为例，单芯片交换容量达到数百Tbps，支持多机箱GPU之间的全互联。

2019年英伟达收购Mellanox，将InfiniBand交换机纳入阵营。Mellanox的Quantum系列交换机端口速率从200Gbps到800Gbps，单台交换机可连接数十到上百个计算节点。从NVSwitch到InfiniBand交换机，"白质"的交换中枢从机箱内扩展到了整个集群。

与生物大脑类比：NVSwitch相当于脑区内部的胼胝体（连接左右半球的粗大纤维束），InfiniBand交换机相当于连接不同脑区的长程纤维束。两者都是物理白质，只是覆盖范围不同。

路径四：物理互联的层级全景

总结一下硅基"白质"的物理层级（从内到外）：

物理层级	传输介质	物理构件	覆盖范围
Die-to-Die	芯片封装内走线	硅中介层/桥接	毫米级
基板级	PCB铜走线	SXM基板	厘米级
机箱内	铜缆/背板	NVLink桥接器	米级
机柜内	DAC铜缆/AOC光缆	架顶交换机	十米级
集群内	多模光纤	InfiniBand交换机+光模块	百米级
数据中心间	单模光纤	WDM光传输系统	公里级

人脑的类比：这是一张从局部微环路到全局长程连接的完整白质网络——从突触（Die-to-Die）到神经束（机柜间）到全脑连接组（跨数据中心）。

回顾灰质的演进——从K80到B200，单卡算力翻了500倍。但每一次灰质的跳跃，都马上撞上新的互联瓶颈，然后白质再追上来。这张"灰质狂奔、白质追赶"的节奏，已经循环了十年。问题是，下一次追赶，白质还追得上吗？

四、当前断面：白质硬件的现实图景

截至2026年，一个典型的万卡级AI训练集群的"白质"——所有物理互联硬件——是什么配置？以H100/B200集群为例：

机箱内部：8张SXM模组GPU插在同一块基板上，通过基板走线互相连接。每张卡通过NVLink 4.0与同机箱内其他7张卡直连。走线的物理结构是固定的，每一对GPU之间的物理路径是确定的——就像白质纤维束在大脑中的布线也是一套固定的解剖通路。

机柜内部：多个机箱通过铜缆或短距光缆连接到一个NVSwitch交换域。每个机柜内往往有数百根线缆——DAC铜缆（短距低功耗）和AOC有源光缆（稍长距离）混用。布线工程师需要像神经解剖学家一样规划每根线缆的走线，因为物理线缆的走向决定了通信延迟和带宽瓶颈。

集群层面：数千个计算节点通过InfiniBand网络互连。互连硬件包括：

•InfiniBand交换机：Mellanox Quantum QM9700之类，端口速率400Gbps起，单台交换机连接数十个节点•光模块：每个端口对应一个可插拔光模块，规格从400G到800G，整个集群的光模块数量可能达到数万个•光纤：连接交换机和节点的多模/单模光纤，总长度以千米计

数据中心之间：通过波分复用（WDM）光传输系统连接，单纤容量数十Tbps，用于多数据中心协同训练。

白质硬件在这条演进中的核心趋势可以用一句话概括：光在向更深的物理层级渗透。 从最初的数据中心之间（公里级），推进到机柜之间（十米级），现在正在进入机箱内部（米级/厘米级）。下一步是芯片内部的光互联——让白质在物理层面彻底"内化"。这项技术有一个专用名称：共封装光学（CPO）。第5章将会详细讨论它如何成为硅基白质的终极形态。

利用率悖论：理论上，一个N卡集群的算力 = 单卡算力 × N。但实际有效算力利用率取决于互联硬件能撑起多大的通信带宽。当模型并行度上升时，卡间通信占比急剧增加。实测表明，某些大规模集群的利用率（MFU）在30-50%区间。其余时间GPU在做什么？一部分在等数据从其他GPU传输过来（互联带宽吃紧），一部分在等内存搬运（HBM带宽墙），还有一部分在处理网络故障后的恢复重算（可靠性代价）。把这三件事加起来，花在"连接"上的钱远比账面上看起来的多——这一点将在第3章系统展开。

第1章告诉我们，碳基大脑在发育后期选择"修剪"来优化能耗效率。硅基系统则走向另一条路——不断用更先进的物理硬件来堆高互连带宽。但在讨论路径对决之前，第3章会先做一个关键工作：把第1章的碳基数据和第2章的硅基事实放到同一张桌子上，看看"灰质-白质"这个框架到底能映射出什么。