涌现 | AI算力的10倍缺口:光互连如何从配角变成主角

放弃线性的控制欲，拥抱系统的自生长。在 AI 的杠杆下，让最高级的生产力自然涌现。

2026年5月6日，Anthropic 宣布与 SpaceX 达成算力协议，租用 Colossus 1数据中心全部300兆瓦容量。媒体的焦点集中在“宿敌握手”和“算力饥渴”，但真正值得警惕的信号被埋在公告细节里：Claude Code 的5小时限额翻倍、API 速率大幅放宽——这些全是推理侧的瓶颈缓解，而推理的核心制约不是 GPU 数量，是芯片之间的数据搬运效率。

换句话说，限制 AI 系统上限的已经不只是“算”，而是“连”。

过去三年，AI 算力增长了约300倍，但光连接的总带宽只增长了约30倍。这个10倍的 gap 不是工程优化能填补的——它是一堵物理墙，正在把万亿美元的 GPU 投资变成闲置产能。而打穿这堵墙的关键技术，就是那个一直被当作“配件”的光互连。

今天这篇文章，我们要拆开一个被主流叙事掩盖的真相：在 AI 军备竞赛中，光互连正在从算力支出的个位数百分比，演变成决定集群能否跑满、项目能否按期上线的瓶颈。这不是技术细节的堆砌，而是一次价值链重塑、激励机制重排、万亿美元重新分配的转折。

那个被忽视的10倍缺口，正在变成算力黑洞

先把数字压平：算力三年增长300倍，光连接增长30倍，中间有个10倍的 gap。这个 gap 意味着什么？

意味着你花3万美元买的 GPU，可能有相当比例的时间在等数据，而不是在计算。

Terahop 营销副总裁于让尘用了一个精准的比喻：人的大脑分为脑灰质和脑白质，灰质负责计算（算力），白质负责连接（互连）。低等动物的大脑小，白质占比只有10%-20%，因为它们不需要复杂协调。但人类大脑的白质与灰质比例接近1:1——大脑越强大，连接的比重越高，而不是越低。

现在 AI 集群的状态是什么？算力（灰质）疯狂扩张，但互连（白质）还停留在“低等动物”阶段。这不是比喻，是硬约束：

英伟达的 NVL72方案，72颗芯片组成一个机架内“大脑”，用的是铜缆连接。铜缆的物理极限卡在几米距离、有限带宽，已经在制约这个“大脑”继续长大。
谷歌的 TPU 方案走得更远，用光交换机（OCS）+ 光互连把数千到近万个 TPU 连成超级大脑（公开披露从 TPU v4 的 4096 芯片到 Ironwood 的 9216 芯片），这套架构谷歌是最早、最系统化部署的超大厂之一，其他玩家才刚起步。
Meta、AWS、微软都在自研 AI 芯片，同时疯狂采购英伟达 GPU——但如果互连跟不上，这些芯片就是一堆“聪明的哑巴”，彼此说不上话。

这就是那个10倍缺口的物理后果：你买了算力，但用不满；你建了集群，但跑不快。

更致命的是，这个缺口还在扩大。因为 AI 训练和推理的规模还在指数级增长，而光互连的带宽提升速度远低于摩尔定律——每一代光模块的速率提升需要突破材料、封装、散热、成本的多重约束，不是简单堆芯片能解决的。

所以那个被主流叙事忽略的真相是：从系统层面看，Anthropic 租 Colossus 1，获取的不只是 GPU 数量，更包括把 22 万张 GPU 组织成可用集群的互连能力和基础设施。这才是这笔交易在技术架构上的真正价值所在。

经济账要反着算：闲置的 GPU 比省下的光模块更贵

有一种根深蒂固的思维惯性：光互连是“配件”，能省就省，钱应该花在 GPU 上。

这个逻辑在五年前没问题，但今天已经是错的。

于让尘在访谈中直接挑战了这个假设：“不能说我们用光互连去跟铜互连比成本。应该算的是，单位算力的输出、单位 Token 的输出，用不同互连方案带来的收益是什么。”

把这个逻辑翻译成大白话：一块 GPU 要3万到5万美元，一块光模块几千美元。如果你为了省那几千块，导致3万块的 GPU 利用率只有60%，你到底是省了还是亏了？

更极端的情况是：如果你的互连方案导致整个集群的训练时间从30天拖到45天，你损失的不只是15天的时间成本，还有市场窗口、竞争优势、用户增长——这些隐性成本是光模块价格的几百倍。

这就是为什么硅谷的 AI 巨头们现在开始把光互连和算力视为“整体优化”，而不是“互相争夺预算”的两个部门。Meta、谷歌、AWS 的数据中心架构师们算的账是：

如果我在光互连上多花10%，能让 GPU 利用率从70%提升到90%，这笔账划算吗？划算。
如果我用更贵的 CPO(Co-Packaged Optics，共封装光学）方案，能把机架内576颗 GPU 连成一个“大脑”，而不是72颗，这笔账划算吗？划算。
如果我提前锁定光模块供应链，避免新数据中心因缺货延期三个月——这根本不是“要不要花钱”的问题，而是“花多少能买到确定性”。

这就是为什么英伟达今年3月向 Lumentum 和 Coherent 战投40亿美元——不是因为它缺钱，而是因为它在担心激光器供应链跟不上 GPU 出货速度，导致客户买了 GPU 却组不成集群。这40亿美元锁定的不是产能，是“确定性”。

所以那个被颠覆的经济逻辑是：光互连的支出不应该被压缩到算力的零头，而应该随着算力规模同步增长，甚至增速更快。于让尘预测，未来光互连在 AI 数据中心资本开支中的占比，会从现在的个位数百分比，增长到与算力“势均力敌”的水平——也就是接近1:1。

这不是技术狂想，是物理必然。因为大脑要变强，白质必须跟上灰质。

Scale Up 的10倍机会：从机架内到多机架，光进铜退的物理极限

现在把视角拉到 AI 集群的三层架构：Scale Up（机架内/跨机架）、Scale Out（数据中心内）、Scale Across（跨数据中心）。

Scale Up 是光互连最大的增长点，因为它是10倍带宽需求 + 最短物理距离 + 最高功耗压力的组合。

什么是 Scale Up？就是把单个“大脑”做得越来越大。英伟达的 NVL72 是 72 颗 GPU 组成一个机架内大脑，下一代是 576 颗，更激进的方案是 1000 颗，谷歌公开披露的 TPU 集群规模已从 4096 芯片演进到 9216 芯片（Ironwood superpod）。

问题是：铜缆在机架内还能撑，但一旦跨机架，物理极限就到了。

铜缆的带宽和距离是反比关系：距离越长，信号衰减越严重，能跑的速率越低。机架内1-2米还能用，但 Scale Up 要突破到多机架（几米到几十米），铜缆就彻底不够用了。

这时候有个经典的工程哲学：“Use copper when you can, use optics when you must.”（能用铜就用铜，必须用光才用光）

但“必须”的临界点已经到了。

于让尘透露，Terahop 今年推出的12.8T XPO（可插拔光模块）和6.4T NPO/CPO 方案，就是在解决 Scale Up 的带宽缺口。12.8T 是什么概念？相当于64个200G 通道并行传输，带宽是上一代3.2T 方案的4倍。

更关键的是，这不是简单的“堆通道”，而是硅光技术成熟后的必然演进。硅光的逻辑是：一旦你把光学元件做到硅片上，良率和可靠性达到一定水平，增加通道数的边际成本极低。从8通道到16通道、32通道、64通道，技术上是顺理成章的。

所以那个被低估的机会是：Scale Up 对单位连接的带宽密度要求远高于 Scale Out（业内普遍认为有数倍到十倍的差距），而光互连在 Scale Up 跨机架场景的渗透率还接近零。这是一个从 0 到 1、从个位数到主流的跃迁窗口，不是线性增长。

但这里有个反直觉的技术分叉：不是所有 Scale Up 都会走“越来越快”的路线，还有一条“越来越宽”的路线。

于让尘提到一个业内探索的方向叫“slow and wide”（慢但宽）：不追求单通道400G 的极限速率，而是用更多低速通道（比如100G 甚至50G）并行传输。这样做的好处是：

功耗大幅降低，接口复杂度也随之下降——不需要极致的 DSP 和激光器，低速信号处理本身就简单得多
通道数可以从64暴增到128甚至更多

这条路线的哲学是：与其造一辆很大很笨重的卡车，不如造一百辆小车同时跑。物理上完全可行，而且可能在某些场景下比高速方案更优。

这就是为什么硅谷大厂在光互连上“不做选择题”——可插拔、NPO、CPO、高速、低速、多通道、OCS……所有路线都在跑，因为不同架构、不同场景的最优解不一样。这不是技术路线的混乱，而是价值链重塑前夜的多元试探。

硅谷大厂的“成人选择”：为什么谷歌、Meta、英伟达都不做宗教式信仰

外界最喜欢写的小作文是：谷歌选可插拔、Meta 选 NPO、英伟达押注 CPO，三家路线分化，谁会赢？

这种叙事的问题是：它把技术选择当成了宗教信仰，而忽略了商业决策的本质是“排列组合优化”。

于让尘直接戳破了这个幻觉：“所有的互联网公司都很实际，他们不会做宗教式的选择。可插拔、NPO、CPO，甚至同一个互联网公司三项都选，叫做成人不做选择题。”

为什么不做选择题？因为：

不同场景的约束不同。Scale Up 要极致带宽和低延迟，可能优选 CPO；Scale Out 要灵活性和可维护性，可能优选可插拔；训练集群和推理集群的需求也不一样。
供应链风险不能押单边。如果只选一家供应商的一种方案，万一那家公司产能跟不上、技术延期、或者被竞争对手锁定，整个数据中心计划就会瘫痪。
技术演进路径不确定。CPO 被认为是“终极形态”，但它的散热、良率、维修成本问题还没完全解决。NPO 是“中间路线”，平衡了性能和灵活性。可插拔是“最保守”但也最成熟的方案。谁会笑到最后？现在下注太早。

所以硅谷大厂的真实策略是：多路线并行，根据具体项目选最优解，同时保持供应链的多元化和议价能力。

这背后的激励机制很清楚：

对云厂商（AWS、谷歌、微软）来说，他们既要买英伟达的垂直整合方案，又要自研芯片（Trainium、TPU、MAIA），还要推开放生态（Open CPX、12.8T XPO 多元协议）。因为他们的核心竞争力是“基础设施即服务”，不能被任何一家供应商锁死。
对英伟达来说，它既要推 CPO（把光学深度集成到 GPU 模块里，提高粘性），又要支持可插拔和 NPO（因为客户需要灵活性）。它的战投 Lumentum 和 Coherent，就是在锁定激光器供应链，避免 CPO 推进时被卡脖子。
对光模块厂商（Terahop、中际旭创、Innolight）来说，他们必须同时开发可插拔、NPO、CPO 三条产品线，因为客户会根据项目需求混合采购。谁只押一条路线，谁就会在某些场景失去订单。

这就是那个被掩盖的真相：技术路线的“分化”不是分裂，而是生态的丰富化。表面上看是竞争，实际上是在为不同场景、不同阶段、不同风险偏好的客户提供选项。

而那些试图用“宗教式信仰”锁定客户的玩家——比如某些只推私有 CPO 方案、不支持开放标准的厂商——会发现客户用脚投票：在万亿美元的算力竞赛中，没有人愿意把命运交给单一供应商。

OCS 的谷歌十年布局：光交换机如何让9000个 TPU 变成一个大脑

现在把焦点转到一个被严重低估的技术：OCS（Optical Circuit Switch，光交换机）。

OCS 不是新技术，但在 AI 时代找到了新场景。它的核心逻辑是：不像传统电交换机那样逐包处理数据，而是直接建立端到端的光路径，让数据以光的形式透明传输。

好处是：

省功耗（不需要光电转换和数字处理）
零延迟（透明传输，没有交换芯片的处理时延）
低成本（不需要昂贵的交换 ASIC）

代价是：

切换慢（重新规划路径需要毫秒级，而电交换是纳秒级）
适用场景受限（只适合流量相对稳定、可预测的工作负载）

但 AI 训练恰好是 OCS 的理想场景：大吞吐、长时间稳定传输、流量模式可预测。

谷歌是全球最早、最系统化部署 OCS 的超大厂之一，公开资料显示其持续演进多年。它的 TPU 集群可以通过 OCS + 光互连组成数千到近万芯片规模的“超级大脑”（从 TPU v4 的 4096 芯片到 Ironwood 的 9216 芯片），这个规模和成熟度远超其他玩家。

更关键的是，OCS 不是简单的硬件替换，而是需要配套的软件调度算法、故障恢复机制、流量预测模型。谷歌在这套系统上持续投入多年，其他公司即使现在开始追，也需要相当时间才能追上。

于让尘透露，各大互联网公司都在评估 OCS，但谷歌走在最前面。未来的趋势是光交换和电交换混合部署：OCS 处理大流量、稳定流量，电交换处理突发流量、控制流量。

这个混合比例会逐渐向 OCS 倾斜——谷歌现在已经有相当比例的 OCS，而其他公司还接近零。这是一个从0到1、从边缘到主流的窗口期。

对供应链来说，OCS 的崛起意味着：

光交换机厂商（传统上做电信设备的公司）会进入 AI 数据中心市场
光模块需要更高的链路预算（因为 OCS 会引入额外损耗）
相干光（Coherent Optics）技术会从长距离传输场景，渗透到数据中心内部

谷歌今年战投了相干光初创公司 Celerity，就是在为这个趋势布局。

12.8T 的飞跃：为什么带宽能一下提升4倍？

现在回到技术细节：Terahop 今年推出的12.8T XPO，相比上一代3.2T 方案，带宽提升了4倍。这是怎么做到的？

答案分两层：需求侧和供给侧同时成熟。

需求侧：那个10倍缺口必须填补，Scale Up 的多机架互连必须用光，客户愿意为更高带宽付溢价。

供给侧：硅光技术已经成熟到可以在单个芯片上集成64个光通道（每通道200G），良率和可靠性达到量产水平。

这不是技术突破，而是技术成熟后的必然演进。就像半导体从28nm 到7nm，不是某一天突然跳跃，而是工艺、材料、设计、封装多个环节同步优化的结果。

但这里有个容易被忽视的瓶颈：激光器。

光模块的核心是激光器，而激光器产业的规模化和晶圆化程度，仍显著落后于主流硅工艺生态。于让尘在访谈中提到一个对比：

硅光芯片已经用 12 英寸（300mm）晶圆量产
激光器厂商现在用的是 3 英寸晶圆，“拍着胸脯”说要做 6 英寸

这意味着激光器的产能和成本，远远落后于硅光芯片。这就是为什么英伟达要战投 Lumentum 和 Coherent——它在担心激光器供应链成为瓶颈。

未来的技术方向有三条：

硅光：继续提升集成度，从64通道到128通道甚至更多
薄膜铌酸锂（Thin-Film Lithium Niobate）：新材料，调制效率更高，可能突破硅光的物理极限
量子点激光器：如果成功，可以直接在硅片上做激光器，彻底解决供应链瓶颈

这三条路线都在跑，谁会赢？现在还不知道。但可以确定的是：谁先突破激光器瓶颈，谁就掌握了光互连产业链的定价权。

价值链重塑：光互连市场的高速增长与利润重新分配

现在把视角拉到产业链：光互连从配角变主角，意味着价值链的重新洗牌。

根据行业研究机构数据，AI 光互连市场正在经历爆发式增长。TrendForce 预测 2026 年全球 AI 光收发器市场将达到 260 亿美元，同比增长超过 57%；LightCounting 更乐观地预测，到 2030 年 AI 集群光互连市场在理想情形下有机会达到 1000 亿美元年销售额。这个增速远超传统数据中心光学市场，标志着光互连正在从边缘走向核心。

但更关键的问题是：这个快速膨胀的蛋糕，利润会如何重新分配？

从产业结构看，价值链正在经历明显的权重转移：

传统格局（大致估算）：

算力芯片（GPU/TPU）占据数据中心资本开支的主要份额
网络设备（交换机 + 光互连）占比相对较小
光互连在其中占比个位数百分比

演进趋势（业内预期）：

光互连的绝对市场规模和相对占比都在快速上升
算力芯片的绝对值继续增长，但占比可能相对下降
OCS 等新型光交换技术开始蚕食传统电交换市场份额

这意味着产业链的权力转移：

光模块厂商（Terahop、中际旭创、Innolight）的蛋糕在变大
激光器厂商（Lumentum、Coherent、II-VI）从边缘走向核心
硅光代工厂（TSMC 的 CoWoS、Intel 的硅光平台）成为新的关键节点
传统电交换芯片厂商（Broadcom、Marvell）面临 OCS 的蚕食

但这里有个更深层的问题：利润会如何重新分配？

在可插拔时代，光模块是相对标准化的产品，竞争激烈。但如果走向 CPO（共封装光学），光学和芯片深度集成，供应链会更集中，头部厂商的议价能力会更强，利润率结构可能发生显著变化。

这就是为什么英伟达要推 CPO——不只是技术优势，更是要把光学锁进自己的生态，提高整体系统的溢价能力。

但云厂商不傻，他们推 Open CPX、12.8T XPO 等开放标准，就是在对抗这种锁定。这是一场供应链控制权的博弈，不是单纯的技术路线之争。

最终的平衡点可能是市场分层：

高端场景（Scale Up、极致性能）：CPO 等高集成方案占主导，供应链集中，技术门槛和利润率都更高
主流场景（Scale Out、灵活部署）：可插拔和 NPO 占主导，供应链开放，竞争更充分
长距离场景（Scale Across）：相干光占主导，技术门槛高，差异化空间大

这不是零和博弈，而是市场分层。每一层都有自己的玩家、自己的利润池、自己的增长曲线。

那个被掩盖的结构性转折：光互连正在从成本中心变成价值中心

最后，把所有线索串起来，回到那个核心问题：光互连为什么能从配角变成主角？

用三因素共振框架来拆解：

1. 结构性病灶：10倍缺口是物理约束，不是工程优化能解决的。算力增长300倍，光连接只增长30倍，这个 gap 会持续扩大，直到光互连的投入与算力投入达到新的平衡。

2. 技术成熟：硅光、CPO、OCS、相干光等技术都已经从实验室走向量产，良率、成本、可靠性达到可规模部署的水平。这不是某一天的突破，而是过去十年持续积累的结果。

3. 时势顺风：AI 训练和推理的规模爆发，把推理首次推到与训练同等重要的位置（甚至更重要）。推理的特点是高吞吐、低延迟、大规模并发，这恰好是光互连的强项。

三者共振，才让光互连在2024-2026这个窗口，从边缘走向中心。

少掉任何一个——比如硅光技术还不成熟、比如 AI 规模还没爆发、比如铜缆还能再撑几年——这个转折就不会发生在此刻。

但更深层的转折是认知的转变：光互连不再是“省钱”的对象，而是“创造价值”的杠杆。

过去的逻辑是：算力是核心，互连是配件，能省就省。

现在的逻辑是：算力和互连是一个整体，必须同步优化。闲置的 GPU 比省下的光模块更贵，延迟的项目比节约的成本更致命。

这就是为什么 Anthropic 愿意租 Colossus 1，为什么英伟达战投40亿美元锁激光器，为什么谷歌十年前就开始布局 OCS。他们算的不是光模块的单价，而是“每一美元光互连投入能释放多少美元的算力价值”。

这个比值正在从1:10变成1:5，未来可能变成1:2甚至1:1。

当这个比值接近1:1时，光互连就不再是配角，而是与算力平起平坐的主角。

尾声：那些还没被看见的机会

如果你是投资人，这篇文章想告诉你的是：AI 基础设施的瓶颈已经从“算”转向“连”，而市场对这个转折的定价还远远不够。

如果你是技术决策者，这篇文章想提醒你的是：不要在光互连上省钱，那会让你的 GPU 投资打折扣。把算力和互连当成整体优化，而不是互相争夺预算的两个部门。

如果你是产业从业者，这篇文章想指出的是：价值链正在重塑，激光器、硅光、CPO、OCS 都是从边缘走向核心的窗口期。谁先卡住关键节点，谁就掌握了定价权。

最后，回到那个10倍缺口：它不是问题，而是机会。

因为每一个结构性缺口，都是一次价值重新分配的起点。

那些能看见缺口、理解缺口、填补缺口的人，会在这场万亿美元的重塑中找到自己的位置。

而那些还在用旧逻辑——“光互连是配件，能省就省”——的人，会发现自己的算力投资正在变成沉没成本。

大脑要变强，白质必须跟上灰质。

这不是比喻，是物理定律。

金句提炼

限制 AI 系统上限的已经不只是“算”，而是“连”——那个10倍缺口正在把万亿美元的 GPU 投资变成闲置产能。
闲置的3万美元 GPU，比省下的几千美元光模块更贵——经济账要反着算。
大脑越强大，连接的比重越高，而不是越低——人类大脑的白质与灰质比例接近1:1，AI 集群也必须遵循这个规律。
硅谷大厂在光互连上“不做选择题”——可插拔、NPO、CPO 都选，因为不同场景的最优解不一样。
谷歌用十年时间证明的事：OCS + 光互连可以把9000个 TPU 连成超级大脑，而其他玩家才刚起步。
激光器产业还在用3英寸晶圆，而硅光已经用12英寸——这个代差就是供应链瓶颈，也是定价权所在。
光互连正在从算力支出的个位数百分比，演变成与算力“势均力敌”的价值中心——这是一次万亿美元的价值链重塑。
每一个结构性缺口，都是一次价值重新分配的起点——那些能看见10倍缺口的人，会在这场重塑中找到自己的位置。

守正 | 拜登时期的绿卡，正在被"秋后算账"

格物 | 开过了20辆车我才明白，整个汽车行业都在对你撒谎

格物 | 银行把卫星送上天，是因为"看起来在做对的事"比"做对的事"更容易