
放弃线性的控制欲,拥抱系统的自生长。在 AI 的杠杆下,让最高级的生产力自然涌现。
2026年5月6日,Anthropic 宣布与 SpaceX 达成算力协议,租用 Colossus 1数据中心全部300兆瓦容量。媒体的焦点集中在“宿敌握手”和“算力饥渴”,但真正值得警惕的信号被埋在公告细节里:Claude Code 的5小时限额翻倍、API 速率大幅放宽——这些全是推理侧的瓶颈缓解,而推理的核心制约不是 GPU 数量,是芯片之间的数据搬运效率。
换句话说,限制 AI 系统上限的已经不只是“算”,而是“连”。
过去三年,AI 算力增长了约300倍,但光连接的总带宽只增长了约30倍。这个10倍的 gap 不是工程优化能填补的——它是一堵物理墙,正在把万亿美元的 GPU 投资变成闲置产能。而打穿这堵墙的关键技术,就是那个一直被当作“配件”的光互连。
今天这篇文章,我们要拆开一个被主流叙事掩盖的真相:在 AI 军备竞赛中,光互连正在从算力支出的个位数百分比,演变成决定集群能否跑满、项目能否按期上线的瓶颈。这不是技术细节的堆砌,而是一次价值链重塑、激励机制重排、万亿美元重新分配的转折。
那个被忽视的10倍缺口,正在变成算力黑洞
先把数字压平:算力三年增长300倍,光连接增长30倍,中间有个10倍的 gap。这个 gap 意味着什么?
意味着你花3万美元买的 GPU,可能有相当比例的时间在等数据,而不是在计算。
Terahop 营销副总裁于让尘用了一个精准的比喻:人的大脑分为脑灰质和脑白质,灰质负责计算(算力),白质负责连接(互连)。低等动物的大脑小,白质占比只有10%-20%,因为它们不需要复杂协调。但人类大脑的白质与灰质比例接近1:1——大脑越强大,连接的比重越高,而不是越低。
现在 AI 集群的状态是什么?算力(灰质)疯狂扩张,但互连(白质)还停留在“低等动物”阶段。这不是比喻,是硬约束:
英伟达的 NVL72方案,72颗芯片组成一个机架内“大脑”,用的是铜缆连接。铜缆的物理极限卡在几米距离、有限带宽,已经在制约这个“大脑”继续长大。
谷歌的 TPU 方案走得更远,用光交换机(OCS)+ 光互连把数千到近万个 TPU 连成超级大脑(公开披露从 TPU v4 的 4096 芯片到 Ironwood 的 9216 芯片),这套架构谷歌是最早、最系统化部署的超大厂之一,其他玩家才刚起步。
Meta、AWS、微软都在自研 AI 芯片,同时疯狂采购英伟达 GPU——但如果互连跟不上,这些芯片就是一堆“聪明的哑巴”,彼此说不上话。
这就是那个10倍缺口的物理后果:你买了算力,但用不满;你建了集群,但跑不快。
更致命的是,这个缺口还在扩大。因为 AI 训练和推理的规模还在指数级增长,而光互连的带宽提升速度远低于摩尔定律——每一代光模块的速率提升需要突破材料、封装、散热、成本的多重约束,不是简单堆芯片能解决的。
所以那个被主流叙事忽略的真相是:从系统层面看,Anthropic 租 Colossus 1,获取的不只是 GPU 数量,更包括把 22 万张 GPU 组织成可用集群的互连能力和基础设施。这才是这笔交易在技术架构上的真正价值所在。
经济账要反着算:闲置的 GPU 比省下的光模块更贵
有一种根深蒂固的思维惯性:光互连是“配件”,能省就省,钱应该花在 GPU 上。
这个逻辑在五年前没问题,但今天已经是错的。
于让尘在访谈中直接挑战了这个假设:“不能说我们用光互连去跟铜互连比成本。应该算的是,单位算力的输出、单位 Token 的输出,用不同互连方案带来的收益是什么。”
把这个逻辑翻译成大白话:一块 GPU 要3万到5万美元,一块光模块几千美元。如果你为了省那几千块,导致3万块的 GPU 利用率只有60%,你到底是省了还是亏了?
更极端的情况是:如果你的互连方案导致整个集群的训练时间从30天拖到45天,你损失的不只是15天的时间成本,还有市场窗口、竞争优势、用户增长——这些隐性成本是光模块价格的几百倍。
这就是为什么硅谷的 AI 巨头们现在开始把光互连和算力视为“整体优化”,而不是“互相争夺预算”的两个部门。Meta、谷歌、AWS 的数据中心架构师们算的账是:
如果我在光互连上多花10%,能让 GPU 利用率从70%提升到90%,这笔账划算吗?划算。
如果我用更贵的 CPO(Co-Packaged Optics,共封装光学)方案,能把机架内576颗 GPU 连成一个“大脑”,而不是72颗,这笔账划算吗?划算。
如果我提前锁定光模块供应链,避免新数据中心因缺货延期三个月——这根本不是“要不要花钱”的问题,而是“花多少能买到确定性”。
这就是为什么英伟达今年3月向 Lumentum 和 Coherent 战投40亿美元——不是因为它缺钱,而是因为它在担心激光器供应链跟不上 GPU 出货速度,导致客户买了 GPU 却组不成集群。这40亿美元锁定的不是产能,是“确定性”。
所以那个被颠覆的经济逻辑是:光互连的支出不应该被压缩到算力的零头,而应该随着算力规模同步增长,甚至增速更快。于让尘预测,未来光互连在 AI 数据中心资本开支中的占比,会从现在的个位数百分比,增长到与算力“势均力敌”的水平——也就是接近1:1。
这不是技术狂想,是物理必然。因为大脑要变强,白质必须跟上灰质。
Scale Up 的10倍机会:从机架内到多机架,光进铜退的物理极限
现在把视角拉到 AI 集群的三层架构:Scale Up(机架内/跨机架)、Scale Out(数据中心内)、Scale Across(跨数据中心)。
Scale Up 是光互连最大的增长点,因为它是10倍带宽需求 + 最短物理距离 + 最高功耗压力的组合。
什么是 Scale Up?就是把单个“大脑”做得越来越大。英伟达的 NVL72 是 72 颗 GPU 组成一个机架内大脑,下一代是 576 颗,更激进的方案是 1000 颗,谷歌公开披露的 TPU 集群规模已从 4096 芯片演进到 9216 芯片(Ironwood superpod)。
问题是:铜缆在机架内还能撑,但一旦跨机架,物理极限就到了。
铜缆的带宽和距离是反比关系:距离越长,信号衰减越严重,能跑的速率越低。机架内1-2米还能用,但 Scale Up 要突破到多机架(几米到几十米),铜缆就彻底不够用了。
这时候有个经典的工程哲学:“Use copper when you can, use optics when you must.”(能用铜就用铜,必须用光才用光)
但“必须”的临界点已经到了。
于让尘透露,Terahop 今年推出的12.8T XPO(可插拔光模块)和6.4T NPO/CPO 方案,就是在解决 Scale Up 的带宽缺口。12.8T 是什么概念?相当于64个200G 通道并行传输,带宽是上一代3.2T 方案的4倍。
更关键的是,这不是简单的“堆通道”,而是硅光技术成熟后的必然演进。硅光的逻辑是:一旦你把光学元件做到硅片上,良率和可靠性达到一定水平,增加通道数的边际成本极低。从8通道到16通道、32通道、64通道,技术上是顺理成章的。
所以那个被低估的机会是:Scale Up 对单位连接的带宽密度要求远高于 Scale Out(业内普遍认为有数倍到十倍的差距),而光互连在 Scale Up 跨机架场景的渗透率还接近零。这是一个从 0 到 1、从个位数到主流的跃迁窗口,不是线性增长。
但这里有个反直觉的技术分叉:不是所有 Scale Up 都会走“越来越快”的路线,还有一条“越来越宽”的路线。
于让尘提到一个业内探索的方向叫“slow and wide”(慢但宽):不追求单通道400G 的极限速率,而是用更多低速通道(比如100G 甚至50G)并行传输。这样做的好处是:
功耗大幅降低,接口复杂度也随之下降——不需要极致的 DSP 和激光器,低速信号处理本身就简单得多
通道数可以从64暴增到128甚至更多
这条路线的哲学是:与其造一辆很大很笨重的卡车,不如造一百辆小车同时跑。物理上完全可行,而且可能在某些场景下比高速方案更优。
这就是为什么硅谷大厂在光互连上“不做选择题”——可插拔、NPO、CPO、高速、低速、多通道、OCS……所有路线都在跑,因为不同架构、不同场景的最优解不一样。这不是技术路线的混乱,而是价值链重塑前夜的多元试探。
硅谷大厂的“成人选择”:为什么谷歌、Meta、英伟达都不做宗教式信仰
外界最喜欢写的小作文是:谷歌选可插拔、Meta 选 NPO、英伟达押注 CPO,三家路线分化,谁会赢?
这种叙事的问题是:它把技术选择当成了宗教信仰,而忽略了商业决策的本质是“排列组合优化”。
于让尘直接戳破了这个幻觉:“所有的互联网公司都很实际,他们不会做宗教式的选择。可插拔、NPO、CPO,甚至同一个互联网公司三项都选,叫做成人不做选择题。”
为什么不做选择题?因为:
不同场景的约束不同。Scale Up 要极致带宽和低延迟,可能优选 CPO;Scale Out 要灵活性和可维护性,可能优选可插拔;训练集群和推理集群的需求也不一样。
供应链风险不能押单边。如果只选一家供应商的一种方案,万一那家公司产能跟不上、技术延期、或者被竞争对手锁定,整个数据中心计划就会瘫痪。
技术演进路径不确定。CPO 被认为是“终极形态”,但它的散热、良率、维修成本问题还没完全解决。NPO 是“中间路线”,平衡了性能和灵活性。可插拔是“最保守”但也最成熟的方案。谁会笑到最后?现在下注太早。
所以硅谷大厂的真实策略是:多路线并行,根据具体项目选最优解,同时保持供应链的多元化和议价能力。
这背后的激励机制很清楚:
对云厂商(AWS、谷歌、微软)来说,他们既要买英伟达的垂直整合方案,又要自研芯片(Trainium、TPU、MAIA),还要推开放生态(Open CPX、12.8T XPO 多元协议)。因为他们的核心竞争力是“基础设施即服务”,不能被任何一家供应商锁死。
对英伟达来说,它既要推 CPO(把光学深度集成到 GPU 模块里,提高粘性),又要支持可插拔和 NPO(因为客户需要灵活性)。它的战投 Lumentum 和 Coherent,就是在锁定激光器供应链,避免 CPO 推进时被卡脖子。
对光模块厂商(Terahop、中际旭创、Innolight)来说,他们必须同时开发可插拔、NPO、CPO 三条产品线,因为客户会根据项目需求混合采购。谁只押一条路线,谁就会在某些场景失去订单。
这就是那个被掩盖的真相:技术路线的“分化”不是分裂,而是生态的丰富化。表面上看是竞争,实际上是在为不同场景、不同阶段、不同风险偏好的客户提供选项。
而那些试图用“宗教式信仰”锁定客户的玩家——比如某些只推私有 CPO 方案、不支持开放标准的厂商——会发现客户用脚投票:在万亿美元的算力竞赛中,没有人愿意把命运交给单一供应商。
OCS 的谷歌十年布局:光交换机如何让9000个 TPU 变成一个大脑
现在把焦点转到一个被严重低估的技术:OCS(Optical Circuit Switch,光交换机)。
OCS 不是新技术,但在 AI 时代找到了新场景。它的核心逻辑是:不像传统电交换机那样逐包处理数据,而是直接建立端到端的光路径,让数据以光的形式透明传输。
好处是:
省功耗(不需要光电转换和数字处理)
零延迟(透明传输,没有交换芯片的处理时延)
低成本(不需要昂贵的交换 ASIC)
代价是:
切换慢(重新规划路径需要毫秒级,而电交换是纳秒级)
适用场景受限(只适合流量相对稳定、可预测的工作负载)
但 AI 训练恰好是 OCS 的理想场景:大吞吐、长时间稳定传输、流量模式可预测。
谷歌是全球最早、最系统化部署 OCS 的超大厂之一,公开资料显示其持续演进多年。它的 TPU 集群可以通过 OCS + 光互连组成数千到近万芯片规模的“超级大脑”(从 TPU v4 的 4096 芯片到 Ironwood 的 9216 芯片),这个规模和成熟度远超其他玩家。
更关键的是,OCS 不是简单的硬件替换,而是需要配套的软件调度算法、故障恢复机制、流量预测模型。谷歌在这套系统上持续投入多年,其他公司即使现在开始追,也需要相当时间才能追上。
于让尘透露,各大互联网公司都在评估 OCS,但谷歌走在最前面。未来的趋势是光交换和电交换混合部署:OCS 处理大流量、稳定流量,电交换处理突发流量、控制流量。
这个混合比例会逐渐向 OCS 倾斜——谷歌现在已经有相当比例的 OCS,而其他公司还接近零。这是一个从0到1、从边缘到主流的窗口期。
对供应链来说,OCS 的崛起意味着:
光交换机厂商(传统上做电信设备的公司)会进入 AI 数据中心市场
光模块需要更高的链路预算(因为 OCS 会引入额外损耗)
相干光(Coherent Optics)技术会从长距离传输场景,渗透到数据中心内部
谷歌今年战投了相干光初创公司 Celerity,就是在为这个趋势布局。
12.8T 的飞跃:为什么带宽能一下提升4倍?
现在回到技术细节:Terahop 今年推出的12.8T XPO,相比上一代3.2T 方案,带宽提升了4倍。这是怎么做到的?
答案分两层:需求侧和供给侧同时成熟。
需求侧:那个10倍缺口必须填补,Scale Up 的多机架互连必须用光,客户愿意为更高带宽付溢价。
供给侧:硅光技术已经成熟到可以在单个芯片上集成64个光通道(每通道200G),良率和可靠性达到量产水平。
这不是技术突破,而是技术成熟后的必然演进。就像半导体从28nm 到7nm,不是某一天突然跳跃,而是工艺、材料、设计、封装多个环节同步优化的结果。
但这里有个容易被忽视的瓶颈:激光器。
光模块的核心是激光器,而激光器产业的规模化和晶圆化程度,仍显著落后于主流硅工艺生态。于让尘在访谈中提到一个对比:
硅光芯片已经用 12 英寸(300mm)晶圆量产
激光器厂商现在用的是 3 英寸晶圆,“拍着胸脯”说要做 6 英寸
这意味着激光器的产能和成本,远远落后于硅光芯片。这就是为什么英伟达要战投 Lumentum 和 Coherent——它在担心激光器供应链成为瓶颈。
未来的技术方向有三条:
硅光:继续提升集成度,从64通道到128通道甚至更多
薄膜铌酸锂(Thin-Film Lithium Niobate):新材料,调制效率更高,可能突破硅光的物理极限
量子点激光器:如果成功,可以直接在硅片上做激光器,彻底解决供应链瓶颈
这三条路线都在跑,谁会赢?现在还不知道。但可以确定的是:谁先突破激光器瓶颈,谁就掌握了光互连产业链的定价权。
价值链重塑:光互连市场的高速增长与利润重新分配
现在把视角拉到产业链:光互连从配角变主角,意味着价值链的重新洗牌。
根据行业研究机构数据,AI 光互连市场正在经历爆发式增长。TrendForce 预测 2026 年全球 AI 光收发器市场将达到 260 亿美元,同比增长超过 57%;LightCounting 更乐观地预测,到 2030 年 AI 集群光互连市场在理想情形下有机会达到 1000 亿美元年销售额。这个增速远超传统数据中心光学市场,标志着光互连正在从边缘走向核心。
但更关键的问题是:这个快速膨胀的蛋糕,利润会如何重新分配?
从产业结构看,价值链正在经历明显的权重转移:
传统格局(大致估算):
算力芯片(GPU/TPU)占据数据中心资本开支的主要份额
网络设备(交换机 + 光互连)占比相对较小
光互连在其中占比个位数百分比
演进趋势(业内预期):
光互连的绝对市场规模和相对占比都在快速上升
算力芯片的绝对值继续增长,但占比可能相对下降
OCS 等新型光交换技术开始蚕食传统电交换市场份额
这意味着产业链的权力转移:
光模块厂商(Terahop、中际旭创、Innolight)的蛋糕在变大
激光器厂商(Lumentum、Coherent、II-VI)从边缘走向核心
硅光代工厂(TSMC 的 CoWoS、Intel 的硅光平台)成为新的关键节点
传统电交换芯片厂商(Broadcom、Marvell)面临 OCS 的蚕食
但这里有个更深层的问题:利润会如何重新分配?
在可插拔时代,光模块是相对标准化的产品,竞争激烈。但如果走向 CPO(共封装光学),光学和芯片深度集成,供应链会更集中,头部厂商的议价能力会更强,利润率结构可能发生显著变化。
这就是为什么英伟达要推 CPO——不只是技术优势,更是要把光学锁进自己的生态,提高整体系统的溢价能力。
但云厂商不傻,他们推 Open CPX、12.8T XPO 等开放标准,就是在对抗这种锁定。这是一场供应链控制权的博弈,不是单纯的技术路线之争。
最终的平衡点可能是市场分层:
高端场景(Scale Up、极致性能):CPO 等高集成方案占主导,供应链集中,技术门槛和利润率都更高
主流场景(Scale Out、灵活部署):可插拔和 NPO 占主导,供应链开放,竞争更充分
长距离场景(Scale Across):相干光占主导,技术门槛高,差异化空间大
这不是零和博弈,而是市场分层。每一层都有自己的玩家、自己的利润池、自己的增长曲线。
那个被掩盖的结构性转折:光互连正在从成本中心变成价值中心
最后,把所有线索串起来,回到那个核心问题:光互连为什么能从配角变成主角?
用三因素共振框架来拆解:
1. 结构性病灶:10倍缺口是物理约束,不是工程优化能解决的。算力增长300倍,光连接只增长30倍,这个 gap 会持续扩大,直到光互连的投入与算力投入达到新的平衡。
2. 技术成熟:硅光、CPO、OCS、相干光等技术都已经从实验室走向量产,良率、成本、可靠性达到可规模部署的水平。这不是某一天的突破,而是过去十年持续积累的结果。
3. 时势顺风:AI 训练和推理的规模爆发,把推理首次推到与训练同等重要的位置(甚至更重要)。推理的特点是高吞吐、低延迟、大规模并发,这恰好是光互连的强项。
三者共振,才让光互连在2024-2026这个窗口,从边缘走向中心。
少掉任何一个——比如硅光技术还不成熟、比如 AI 规模还没爆发、比如铜缆还能再撑几年——这个转折就不会发生在此刻。
但更深层的转折是认知的转变:光互连不再是“省钱”的对象,而是“创造价值”的杠杆。
过去的逻辑是:算力是核心,互连是配件,能省就省。
现在的逻辑是:算力和互连是一个整体,必须同步优化。闲置的 GPU 比省下的光模块更贵,延迟的项目比节约的成本更致命。
这就是为什么 Anthropic 愿意租 Colossus 1,为什么英伟达战投40亿美元锁激光器,为什么谷歌十年前就开始布局 OCS。他们算的不是光模块的单价,而是“每一美元光互连投入能释放多少美元的算力价值”。
这个比值正在从1:10变成1:5,未来可能变成1:2甚至1:1。
当这个比值接近1:1时,光互连就不再是配角,而是与算力平起平坐的主角。
尾声:那些还没被看见的机会
如果你是投资人,这篇文章想告诉你的是:AI 基础设施的瓶颈已经从“算”转向“连”,而市场对这个转折的定价还远远不够。
如果你是技术决策者,这篇文章想提醒你的是:不要在光互连上省钱,那会让你的 GPU 投资打折扣。把算力和互连当成整体优化,而不是互相争夺预算的两个部门。
如果你是产业从业者,这篇文章想指出的是:价值链正在重塑,激光器、硅光、CPO、OCS 都是从边缘走向核心的窗口期。谁先卡住关键节点,谁就掌握了定价权。
最后,回到那个10倍缺口:它不是问题,而是机会。
因为每一个结构性缺口,都是一次价值重新分配的起点。
那些能看见缺口、理解缺口、填补缺口的人,会在这场万亿美元的重塑中找到自己的位置。
而那些还在用旧逻辑——“光互连是配件,能省就省”——的人,会发现自己的算力投资正在变成沉没成本。
大脑要变强,白质必须跟上灰质。
这不是比喻,是物理定律。
金句提炼
限制 AI 系统上限的已经不只是“算”,而是“连”——那个10倍缺口正在把万亿美元的 GPU 投资变成闲置产能。
闲置的3万美元 GPU,比省下的几千美元光模块更贵——经济账要反着算。
大脑越强大,连接的比重越高,而不是越低——人类大脑的白质与灰质比例接近1:1,AI 集群也必须遵循这个规律。
硅谷大厂在光互连上“不做选择题”——可插拔、NPO、CPO 都选,因为不同场景的最优解不一样。
谷歌用十年时间证明的事:OCS + 光互连可以把9000个 TPU 连成超级大脑,而其他玩家才刚起步。
激光器产业还在用3英寸晶圆,而硅光已经用12英寸——这个代差就是供应链瓶颈,也是定价权所在。
光互连正在从算力支出的个位数百分比,演变成与算力“势均力敌”的价值中心——这是一次万亿美元的价值链重塑。
每一个结构性缺口,都是一次价值重新分配的起点——那些能看见10倍缺口的人,会在这场重塑中找到自己的位置。
夜雨聆风