一、起点:硅基世界从零到一
1947年,贝尔实验室的巴丁、布拉顿和肖克利造出了第一枚点接触晶体管。这个当时不起眼的半导体器件,最终长成了一个万亿级的产业。一枚芯片上的晶体管数量从单个变成数十亿个——摩尔定律统治了半个多世纪。
但晶体管≠智能。在很长一段时间里,计算能力足够做科学计算和数据处理,却远不足以支撑"机器思考"。
1958年,弗兰克·罗森布拉特提出了感知机(Perceptron),被认为是AI的第一个算法模型。它的局限性在今天看来极其原始:单层神经网络连异或(XOR)问题都解决不了。随后的AI寒冬持续了二十年,原因归结到底只有一条:算力不够。
那时候的"灰质"还没长出来——芯片的晶体管密度远远达不到模拟一个简单神经网络所需的规模。至于"白质",更不存在,因为连需要互联的核心都没有。
二、灰质扩张:GPU把硅基算力推过临界点
GPU原本不是为AI造的。英伟达在1999年推出GeForce 256时,目标市场只有一个——电子游戏。2006年,CUDA(统一计算设备架构)发布,第一次允许开发者用GPU做通用计算,而不只是画三角形。
但真正引爆这一切的是2012年的ImageNet挑战赛。亚历克斯·克里热夫斯基(Alex Krizhevsky)用两块GTX 580显卡训练了一个深度卷积网络——AlexNet,以碾压性的优势击败了所有传统计算机视觉算法。误差率从前一年的25.8%直降到15.3%,第二名还在26%以上。
这是硅基"灰质"扩张的起点。
此前不是没有人尝试过用神经网络做图像识别。但算力是硬约束——单核CPU跑一个像样点的网络,训练周期要以周计。两块GPU并行,把训练时间压缩到了一个可接受的范畴内。这个信号被产业界迅速读取:通往更强智能的路,是靠更强的算力铺出来的。
此后GPU进入狂飙迭代周期:
十年间,单卡算力增长了五百倍。如果把AlexNet时期的GPU比作正在快速增生的灰质,那这段时间就是大脑皮层在疯狂扩张——神经元数量(算力核心)和每颗神经元的处理能力(单核性能)都在急剧增长。
但这一阶段有一个重要特征:芯片内部算力增长远远快于芯片之间的连接速度。 PCIe总线——当时GPU互联的唯一通道——带宽增长缓慢,在K80时代还够用,到P100/V100时已经成为明显的瓶颈。单卡再强,模型如果大到装不进一张卡,就必须多卡并行,而并行效率取决于互联带宽。
以当时的标准说法:"GPU在一秒钟内能算完的数据,需要花好几秒钟从其他卡那里拿到。"这意味着灰质在猛增,但白质还没跟上。
三、白质扩张:物理互连硬件的四次进化
到2014年左右,产业界已经意识到一个问题:大模型没办法装进一张GPU里。 最简单的解决方案是把模型切碎,分散到多张GPU上并行训练。但这样一来,卡与卡之间需要频繁交换梯度和参数。如果连接太慢,多卡并行反而比单卡还慢。白质的物理互连硬件从这里开始了一场持续至今的升级。
这是硅基"白质"扩张的起点。 但"连接"不是一张白纸凭空出现的——它有四条具体的物理演进路径。
路径一:从独立板卡到封装集成
最早的GPU是插在PCIe插槽上的独立板卡,像一个个"孤立的神经元",彼此通信需要经过主板走线到CPU再到另一张卡,物理距离以米计,信号要绕很远的路。
2014年英伟达NVLink发布后,GPU之间有了专用物理桥接器——一根高速线缆把两张卡直连起来。从"CPU转接"变成了"点对点直连"。
到2017年的V100时代,GPU不再以独立PCIe卡的形式出售,而是以SXM模组的形式焊接到一块专用基板上。8张GPU共享同一个基板,物理间距从"米级"缩到了"厘米级"。走线距离变短意味着延迟降低、带宽效率提升——相当于白质纤维束从不规则的散线变成了紧密编织的电缆。
到2024年的B200,两片计算die直接封装在同一个芯片外壳内,die之间的互联带宽已经超过任何外部线缆。白质被推到了最深的物理层次——芯片封装内部。
这条路径的底层逻辑:物理距离越短,信号传输越快越省电。与人脑白质将轴突髓鞘化、优化信号传导效率的进化逻辑完全一致。
路径二:从铜缆到光缆
把GPU连起来的第一条线是铜缆。铜的好处是便宜、成熟、功耗低——板级走线、机柜内的SAS/SATA线、InfiniBand的DAC(无源铜缆),都是铜。但铜有物理极限:距离一长信号就衰减,而且线太重太长根本理不顺。
2010年代末,AI集群规模从几百张卡扩大到几千上万张,铜缆已经撑不住了。有源光缆(AOC)登场——在铜缆两端加装光电转换器,传输介质换成光纤。同样一根线,重量减轻一大半,传输距离从几米延伸到几十上百米,信号质量反而更好。
升级到光缆的物理意义不亚于生物神经纤维从无髓鞘进化到有髓鞘——不是换个材料那么简单,是整个物理传输速度的量级跃升。
进入2020年代,可插拔光模块进一步推动了互联硬件的发展。数据中心的光模块规格快速迭代:100G → 400G → 800G → 1.6T。每个新代际意味着物理接口的重新设计——更小的尺寸、更高的密度、更低的每比特功耗。
最新的趋势是硅光技术:把原本独立的光模块直接集成到芯片封装上,用光信号代替电信号在芯片之间传输数据。这不只是线缆的升级,是物理连通的底层变革。
路径三:交换硬件——白质的枢纽
多张GPU互联需要交换设备。最早的GPU"互联"使用的是PCIe交换机,交换容量在Tbps级别。
NVLink诞生后,英伟达推出了NVSwitch——一颗专门为多GPU互联设计的物理交换芯片。以H100的NVSwitch为例,单芯片交换容量达到数百Tbps,支持多机箱GPU之间的全互联。
2019年英伟达收购Mellanox,将InfiniBand交换机纳入阵营。Mellanox的Quantum系列交换机端口速率从200Gbps到800Gbps,单台交换机可连接数十到上百个计算节点。从NVSwitch到InfiniBand交换机,"白质"的交换中枢从机箱内扩展到了整个集群。
与生物大脑类比:NVSwitch相当于脑区内部的胼胝体(连接左右半球的粗大纤维束),InfiniBand交换机相当于连接不同脑区的长程纤维束。两者都是物理白质,只是覆盖范围不同。
路径四:物理互联的层级全景
总结一下硅基"白质"的物理层级(从内到外):
人脑的类比:这是一张从局部微环路到全局长程连接的完整白质网络——从突触(Die-to-Die)到神经束(机柜间)到全脑连接组(跨数据中心)。
回顾灰质的演进——从K80到B200,单卡算力翻了500倍。但每一次灰质的跳跃,都马上撞上新的互联瓶颈,然后白质再追上来。这张"灰质狂奔、白质追赶"的节奏,已经循环了十年。问题是,下一次追赶,白质还追得上吗?
四、当前断面:白质硬件的现实图景
截至2026年,一个典型的万卡级AI训练集群的"白质"——所有物理互联硬件——是什么配置?以H100/B200集群为例:
机箱内部:8张SXM模组GPU插在同一块基板上,通过基板走线互相连接。每张卡通过NVLink 4.0与同机箱内其他7张卡直连。走线的物理结构是固定的,每一对GPU之间的物理路径是确定的——就像白质纤维束在大脑中的布线也是一套固定的解剖通路。
机柜内部:多个机箱通过铜缆或短距光缆连接到一个NVSwitch交换域。每个机柜内往往有数百根线缆——DAC铜缆(短距低功耗)和AOC有源光缆(稍长距离)混用。布线工程师需要像神经解剖学家一样规划每根线缆的走线,因为物理线缆的走向决定了通信延迟和带宽瓶颈。
集群层面:数千个计算节点通过InfiniBand网络互连。互连硬件包括:
•InfiniBand交换机:Mellanox Quantum QM9700之类,端口速率400Gbps起,单台交换机连接数十个节点•光模块:每个端口对应一个可插拔光模块,规格从400G到800G,整个集群的光模块数量可能达到数万个•光纤:连接交换机和节点的多模/单模光纤,总长度以千米计
数据中心之间:通过波分复用(WDM)光传输系统连接,单纤容量数十Tbps,用于多数据中心协同训练。
白质硬件在这条演进中的核心趋势可以用一句话概括:光在向更深的物理层级渗透。 从最初的数据中心之间(公里级),推进到机柜之间(十米级),现在正在进入机箱内部(米级/厘米级)。下一步是芯片内部的光互联——让白质在物理层面彻底"内化"。这项技术有一个专用名称:共封装光学(CPO)。第5章将会详细讨论它如何成为硅基白质的终极形态。
利用率悖论:理论上,一个N卡集群的算力 = 单卡算力 × N。但实际有效算力利用率取决于互联硬件能撑起多大的通信带宽。当模型并行度上升时,卡间通信占比急剧增加。实测表明,某些大规模集群的利用率(MFU)在30-50%区间。其余时间GPU在做什么?一部分在等数据从其他GPU传输过来(互联带宽吃紧),一部分在等内存搬运(HBM带宽墙),还有一部分在处理网络故障后的恢复重算(可靠性代价)。把这三件事加起来,花在"连接"上的钱远比账面上看起来的多——这一点将在第3章系统展开。
第1章告诉我们,碳基大脑在发育后期选择"修剪"来优化能耗效率。硅基系统则走向另一条路——不断用更先进的物理硬件来堆高互连带宽。但在讨论路径对决之前,第3章会先做一个关键工作:把第1章的碳基数据和第2章的硅基事实放到同一张桌子上,看看"灰质-白质"这个框架到底能映射出什么。
夜雨聆风