黄仁勋押注全光互连:AI数据中心的瓶颈,正在从GPU转向I/O Fabric

过去几年，AI基础设施的核心叙事是GPU。

H100、H200、B200、GB200，大家关注的是算力、显存、HBM带宽、FP8/FP4性能、NVLink带宽。但随着模型规模和集群规模继续扩大，一个更底层的问题开始变得明显：

GPU单点算力已经很强，但GPU之间的数据交换越来越贵。

大模型训练不是单卡任务，而是典型的分布式并行计算。

数据并行需要同步梯度。
张量并行需要频繁交换中间激活。
流水线并行需要跨阶段传递数据。
专家混合模型需要动态路由Token。
多节点推理还需要KV Cache、路由、调度和结果聚合。

这些过程都会产生大量GPU间通信。

所以，在大规模AI集群里，真正影响训练效率的，不只是FLOPS，而是端到端系统效率：

Compute + Memory + Network + Storage + Scheduling。

其中Network正在变成越来越关键的一环。

NVIDIA近两年对光互连的动作明显加速。2025年，NVIDIA发布Spectrum-X Photonics共封装光学网络交换方案，官方称其相比传统方案可实现更高能效、更高信号完整性和更高规模网络韧性。 2026年3月，NVIDIA又宣布与Coherent建立战略合作，计划投资20亿美元，用于先进光学技术供应、研发和美国制造能力扩展。 2026年5月，Reuters报道，NVIDIA还向Corning提供额外的大额预付款，用于支持其美国光纤制造能力扩张。

这些动作说明，NVIDIA关注的已经不是单一GPU，而是AI Factory里的整体互连架构。

技术上看，问题主要出在三个地方。

第一，AI集群规模扩大后，通信开销会吃掉越来越多的有效算力。

在单机8卡、单机多GPU场景下，可以依赖NVLink、NVSwitch等高带宽互连解决GPU间通信。但当集群扩展到多机柜、多Pod，甚至跨数据中心时，通信链路开始变长，网络层级增加，延迟、拥塞、丢包、重传、同步等待都会影响训练效率。

大模型训练里，经常不是GPU不够快，而是GPU在等通信完成。

尤其在AllReduce、AllGather、ReduceScatter这类集合通信场景中，网络带宽和尾延迟会直接影响训练step time。只要有部分节点通信慢，整个同步过程就会被拖住。

所以，AI集群不是简单把GPU堆起来，而是要把GPU组织成一个低延迟、高带宽、可预测的计算织网。

第二，传统可插拔光模块架构开始接近功耗和信号完整性的边界。

现在数据中心交换机通常采用可插拔光模块。交换ASIC在设备内部，光模块插在前面板，中间需要通过PCB走高速电信号。

问题是，交换芯片速率越高，SerDes越快，电信号在PCB上的损耗、串扰、均衡复杂度和功耗都会上升。

也就是说，数据在变成光信号之前，仍然要先走一段高频电连接。

这段“电连接距离”越长，功耗越高，信号完整性越难做，系统成本也越高。

共封装光学，CPO，解决的正是这个问题。

它的核心思路是：

把光引擎从前面板光模块位置，搬到交换ASIC附近，尽量缩短高速电信号路径，让数据更早完成电光转换。

传统路径大致是：

Switch ASIC → PCB高速走线 → 前面板光模块 → 光纤

CPO路径则变成：

Switch ASIC → 封装内/近封装电连接 → 光引擎 → 光纤

这个变化的意义不是“换一种光模块形态”，而是把互连架构从板级优化推进到封装级优化。

NVIDIA在硅光页面中也明确把CPO描述为面向Agentic AI时代的网络方案，强调用同封装硅光替代传统可插拔收发器，以提升能效和网络韧性。

第三，AI数据中心正在从Scale-up走向Scale-out，再走向跨站点Scale-out。

Scale-up解决的是单节点或单机柜内GPU如何互联。
Scale-out解决的是多个节点、多个机柜如何组成训练集群。
跨站点Scale-out解决的是多个数据中心之间如何协同提供算力。

传统云计算网络主要承载东西向业务流量和南北向访问流量。AI网络不一样，它承载的是高强度、同步性很强、对尾延迟敏感的训练和推理流量。

这类流量有几个特点：

带宽需求极高。
通信模式集中。
突发性强。
同步等待明显。
尾延迟影响整体效率。
网络不稳定会直接拖慢GPU利用率。

所以，AI网络不是传统意义上的“数据中心网络升级”，而是AI计算系统的一部分。

黄仁勋强调AI Factory，本质上是在重新定义数据中心：

数据中心不再是服务器的集合，而是一台被网络连接起来的巨型计算机。

如果这样理解，光互连就不是通信配套，而是这台巨型计算机的系统总线。

为什么NVIDIA要把手伸向Coherent、Corning这类光学供应链？

因为未来AI数据中心的关键约束不只在GPU供给，也在光学器件供给。

大规模AI集群需要大量光模块、光纤、连接器、激光器、硅光器件。集群规模越大，光连接密度越高。网络从800G走向1.6T、3.2T，交换芯片radix提高，端口数量上升，光学供应链的重要性会快速提升。

NVIDIA投资Coherent，是在锁定先进光学技术和制造能力。
NVIDIA支持Corning扩产，是在锁定AI数据中心内部和之间所需的光纤与光连接基础材料能力。

这说明NVIDIA的战略已经从“卖GPU”变成了“定义AI基础设施栈”。

这个栈包括：

GPU。
HBM。
NVLink / NVSwitch。
InfiniBand / Ethernet。
Spectrum-X。
BlueField DPU。
CPO / Silicon Photonics。
整机柜系统。
AI集群调度软件。
模型训练和推理软件栈。

从这个角度看，光互连不是一个孤立技术点，而是NVIDIA控制AI基础设施效率曲线的一部分。

对于技术博主来说，这里最值得讲透的是一个判断：

AI算力竞争正在从FLOPS竞争，转向Fabric竞争。

FLOPS解决“单点能算多少”。
Fabric解决“多少GPU能像一台机器一样算”。
CPO和硅光解决“这个Fabric能不能继续扩展”。

这也是为什么AI数据中心会越来越像HPC系统，而不是传统云主机资源池。

传统云资源池追求资源池化、弹性、隔离、多租户。
AI Factory追求同步效率、通信确定性、低尾延迟、高带宽密度、低功耗互连。

两者底层逻辑不一样。

如果把这个话题落到国内智算中心建设，也有很现实的提醒。

很多智算中心建设还停留在“多少P算力、多少张卡、多少机柜”的汇报口径。但真正决定平台能力的，是这些GPU能不能被高效组织起来。

技术上至少要看几项指标：

GPU利用率。
训练step time。
AllReduce效率。
网络拥塞情况。
RDMA性能。
东西向流量模型。
交换网络oversubscription比例。
端到端尾延迟。
存储到GPU的数据供给能力。
单位Token能耗和成本。

如果只堆GPU，不看网络、不看存储、不看调度、不看通信效率，最后很可能形成“账面算力很高，实际产出不高”的问题。

所以，“老黄押注全光”真正值得关注的地方，不是光通信概念本身，而是它揭示了AI基础设施的下一阶段方向：

GPU之后，网络成为算力放大的关键杠杆。

单卡性能决定下限。
集群互连决定上限。
光互连决定这个上限还能不能继续往上抬。

一句话总结：

黄仁勋押注的不是“全光概念”，而是AI Factory的下一代I/O Fabric。谁能把GPU、交换网络、光互连、存储和调度系统打成一个整体，谁才能真正把大规模GPU变成大规模有效算力。