
一、一个月,60 亿美元,全砸在"光"上
2026 年 3 月,NVIDIA 在 31 天里做了三件几乎一模一样的事:
• 给 Coherent 投了 20 亿美元
• 给 Lumentum 投了 20 亿美元
• 给 Marvell 投了 20 亿美元
总共 60 亿美元,全砸在一个共同主题上:让 GPU 之间高速说话。
具体来说——Coherent 和 Lumentum 是全球最大的两家光器件公司,做 GPU 跨机柜通信用的光模块和激光器;Marvell 是 AI 定制芯片设计 + 硅光子的双线玩家,既给 AWS、Microsoft 做"替代 NVIDIA GPU"的定制芯片,也在做光互连相关的硅光子设计(2026 年 2 月刚完成 Celestial AI 收购)。
它们做的事虽然各不相同,但指向同一件事——AI 工厂里芯片之间、机柜之间的"高速通信"基础设施。光模块是这条链上最直接、最大的物理载体——这也是为什么标题里把这件事统称为"砸在光上"。
一家市值近 5 万亿美元的公司,一个月内连续掏出三笔 20 亿美元真金白银,传递了一个明确的产业信号:
AI 产业链的下一场战役不在 GPU 本身,在"让 GPU 之间说话"这件事上。
这件事的载体,就是这篇文章的主角——光模块(说白了,就是一个把电信号变成光信号、用光纤传过去、到另一头再变回电信号的小盒子)。
这篇文章只做一件事——把光模块这条产业链从零到一讲清楚:它在 AI 工厂哪一层、为什么 2024-2025 突然爆发、产业链关键卡脖子的位置在哪里、未来三代产品的节奏、以及最关键的——AI 大厂的天量投入到底是真需求还是泡沫。
全文不下任何买卖结论,只讲产业本身。
二、光模块到底在 AI 工厂哪一层
理解光模块之前,先把整个 AI 工厂的结构弄清楚。用"做菜"做个比喻。
一个 AI 数据中心就是一座超大的中央厨房:
• GPU(图形处理器,AI 的"算力心脏")= 炒锅,负责把数据炒成结果
• HBM(高带宽内存,焊在 GPU 旁边的快速存储)= 贴在炒锅边的料台,大厨每炒一下就从这里抓食材
• CPU(中央处理器,调度芯片)= 大堂经理,决定哪道菜先上、哪道菜后上
• 光模块 = 机柜之间的传菜带
为什么传菜带这么重要?因为现代 AI 数据中心根本不是一台机器——是几万台、几十万台机器组成的"机器农场"。
举一个具体的画面:NVIDIA 最新一代的 Blackwell GB200 机柜,一个机柜里就塞了 72 颗 GPU,加上 36 颗 CPU——但这 72 颗 GPU 之间还需要疯狂地交换数据。光算一台机柜,里面就有近 5000 根铜缆,加起来 2 英里长(来源:NVIDIA 公开技术资料)。
需要澄清一下:机柜内部 72 颗 GPU 之间靠的就是这些铜缆(统称 NVIDIA 的 NVLink 系统,本质是高速铜质背板和铜线),距离短、速率高、成本可控——这条路线工作得很好,光暂时不需要进机柜内部。真正需要光的是机柜与机柜之间。
而这只是一个机柜。一座数据中心里有几百上千个这样的机柜——这些机柜之间怎么连?
为什么机柜之间一定要用光,铜不行吗
这是一个需要单独解释的关键问题。铜不是"不能做",是物理上做不到 AI 数据中心需要的规格。
具体三条原因:
• 距离衰减:铜传输高频电信号,距离越远信号越弱。AI 集群里机柜之间通常隔 3-30 米,到 200 Gbps 以上的速率,铜缆传几米就衰减到无法识别。光信号在光纤里传几公里都几乎不衰减
• 串扰爆炸:铜信号会向旁边的铜信号"漏电磁波",距离越长、速率越快,"漏"得越多。AI 机柜里几千根线挤在一起,铜在 200 Gbps/lane 之后串扰指数级上升。光信号在光纤里完全互不干扰
• 功耗不经济:在 800 Gbps 以上的速率下,要让铜传 5 米以上需要多级信号放大和均衡,功耗变得不可接受。一根光纤的功耗几乎只在发射端和接收端
更直观地说:机柜内部短距离(几十厘米到 1 米),铜缆勉强够用且便宜——这就是为什么一个机柜里 5000 根铜缆还在用;机柜之间的几米到几十米,铜已经物理失效——必须用光。
这是光模块的位置:机柜与机柜之间唯一可以走的"传菜带"。
光模块到底是个什么东西
来一个具体的数字感:
• 一个 800G 光模块(每秒传 800 Gbit 数据的光模块,目前主流规格)= 大概 15-20 瓦功耗
• 一颗 GPU 通常配 8-16 个光模块端口
• 一个 AI 集群里几万颗 GPU = 几十万个光模块
• 整柜光模块的总功耗能到几千瓦到几十千瓦
光模块不是 GPU 旁边的"小配件"——它是整个机柜能不能运转的物理底线。一个机柜里所有光模块加起来的耗电量,接近一个普通家庭一年的用电量。
一个常见误解
很多人以为"光模块"就是一根光纤线。完全错。
光纤是被动的玻璃丝——只是负责"运光"。光模块是主动的电子 + 光学组件,里面包含:
• 激光器(让信号变成光)
• 调制器(把数据"刻"进光信号)
• 光电探测器(在另一端把光变回电)
• DSP 数字信号处理芯片(负责编解码和纠错)
一个 1.6T 光模块(下一代规格,每秒 1.6 万亿 bit)里,集成了几十个精密电子和光学元件,整体复杂度堪比一颗小型芯片。本质上是一类光电芯片产品,不是"线缆"。
三、光模块需求暴涨——不是炒作,是物理逼出来
过去 12 个月,光模块产业从行业新闻里冒头,成了 AI 算力链上最被讨论的环节之一。但它凭什么?
答案不在炒作,不在题材。答案在物理。
三件事推爆了光模块需求
第一件:AI 模型开始"深度思考"
2024 年开始,OpenAI 的 o1、DeepSeek R1、Claude thinking 这类"推理模型"成了主流。它们和早期 ChatGPT 不一样——回答你一个问题之前,会先在内部"想"几千甚至几万步。
每一步思考,模型都要读写一份内部状态笔记,专业术语叫 KV Cache(说白了就是模型当下"记在脑子里"的上下文笔记本)。
百万 token 长上下文场景下,这份笔记本可以涨到 320 GB——比模型本身的体积还大。
一颗顶级 GPU 也就装得下 100-200 GB 的内存。这份笔记本装不下了,就必须分摊到其他 GPU 上——同机柜内的 GPU 之间走 NVIDIA 的 NVLink 铜质背板(短距高速),跨机柜的 GPU 之间就只能走光模块。
模型越聪明,思考越长,跨 GPU 的数据流量越大;当推理任务的规模超出单个机柜的 72 颗 GPU 容量时,光模块的需求就指数级上升。
第二件:上下文被拉到"一整个机柜"的尺度
2026 年的主流大模型(DeepSeek V4-Pro、Claude Opus 4.7、Gemini 2.5 Pro)已经能处理 100 万 token 的上下文——大概是一本 50 页财报或者一整个代码库的体量。
你把这么大的内容扔给模型,一次推理就要在几十张甚至上百张 GPU 之间来回搬数据。一旦超出单机柜 72 颗 GPU 的容量,就要跨机柜——这时候光纤就是唯一选择。
这相当于——以前一个厨师在一间厨房里炒一道菜;现在变成 72 个厨师在 72 间厨房里同时炒同一道菜,每秒钟都要把食材和半成品在 72 间厨房之间倒腾。而当一道菜需要 200 个厨师同时炒,超出一间厨房能容纳的人数,几栋楼之间也要联动——这就是光模块上场的时刻。
第三件:AI Agent 让算力消耗成倍放大
2025-2026 年最热的应用形态是 AI Agent——比如 Codex(OpenAI 的编程 Agent)、Claude Code、Cursor 的 Agent 模式。
Agent 的特点是:一个用户的一次任务(比如"帮我修一个 bug"),可能在后台触发模型 100 多次调用。每次调用都要读写笔记本、查阅整个代码库上下文。
需要说清楚的是:Agent 任务不必然让单次调用变得跨 GPU——很多调用上下文不大、单卡就能跑。但 Agent 让单位时间内调用的总数爆炸式增长(一个开发任务相当于过去 100 个对话),而整体调用总量上来之后,AI 数据中心层面就要部署更多 GPU 集群来承载——集群规模一大,跨 GPU 通信占比自然上升。
这是从宏观层面推爆光模块需求的逻辑:Agent 时代的总算力消耗让整个 AI 基础设施扩张得更快——从 OpenAI 公开数据看,2025 年初到 2026 年初每天处理的 token 数量增长了 5-10 倍。
一个数字最能说明问题
NVIDIA 自己公布的数据(每代"紧密协同的 GPU 单元"在变大):
• Hopper 一代(2022):一台 HGX 服务器 8 颗 GPU 紧密协同
• Blackwell 一代(2024):一个机柜 72 颗 GPU 紧密协同
• Rubin Ultra(2027 H2):一个跨 8 机柜的"逻辑域" 576 颗 GPU 紧密协同
三代产品里,需要彼此说话的 GPU 数量从 8 颗膨胀到 576 颗,放大了 70 多倍——这是 GPU 设计史上从来没有出现过的事。
这 70 倍"彼此说话"需求并不全部走光模块——同机柜内的 GPU 之间靠 NVLink 铜质背板(短距高速),跨机柜的 GPU 之间必须靠光。
但 Rubin Ultra 这一代有一个关键变化:之前一个"逻辑算力单元"= 一个机柜(72 颗 GPU),所有紧密通信都在机柜内部用铜搞定;从 Rubin Ultra 开始,一个"逻辑算力单元"被拉到 576 颗 GPU、横跨 8 个机柜。这意味着原本封闭在机柜内部的紧密通信,现在必须有一大部分跨越机柜边界——而跨机柜的高速通信只能走光。
打个比方:原来一道菜 72 个厨师都在同一间厨房里炒、抓食材直接伸手;现在一道菜要 576 个厨师分散在 8 间厨房里同时炒,菜从一间厨房送到另一间厨房的频率必须从"偶尔"变成"每秒钟"——传送带(光模块)的负载自然指数级上升。
需求侧的故事就是这样:模型变聪明(笔记本变大)+ 上下文变长(单次推理跨机柜)+ Agent 总算力消耗指数级上升(数据中心整体扩张)→ 光模块需求暴涨。这条逻辑链非常硬,只要 AI 模型继续变聪明、被用得更多,这条逻辑就成立。
四、产业链结构——跟着钱走,找到两个真卡脖子
很多人以为"光模块就是 Lumentum 和 Coherent 两家"——这是把整条产业链压缩成了一个环节。事实上,光模块只是中间一个工序,它的上游下游加起来有 6 层,每一层都有自己的玩家、自己的护城河、自己的议价权。
理解这条链最好的办法不是看清单,是跟着钱走。看一笔最终用户花的钱,是怎么从应用层一路传到产业链最深处的。
跟着钱走:一笔订单的旅程
下面用一个具体例子追踪一笔钱怎么从最终用户传到光模块产业链最底层。这只是 AI 数据中心采购路径中的一种典型形态——实际行业里还有别的组合(下面会讲到),但用这个例子最容易理解结构。
举例:一家大企业付了 100 万美元给 OpenAI 买 ChatGPT Enterprise 订阅。
第一站:OpenAI 收到钱,大部分用来租算力。OpenAI 不自建机房,主要从 Microsoft Azure 租 GPU 集群。
第二站:Microsoft 拿到租金,去采购数据中心设备。这里钱分成几条线,跟光模块相关的有两条:
• 买 NVIDIA GPU(这部分钱进 NVIDIA,不归光模块产业链)
• 买网络交换机——把成千上万颗 GPU 连起来用的"枢纽设备"
关键岔路口在这里——网络交换机的采购,目前有两条主流路线:
• 路线 A:买 NVIDIA 的全套整机方案。NVIDIA 这几年开始卖整机柜(比如 NVL72),里面已经集成了自家的 Spectrum-X 交换机、ConnectX 网卡和光模块接口。这条路线下,Microsoft 只跟 NVIDIA 一家打交道,光模块订单由 NVIDIA 替它去采购
• 路线 B:自己 DIY 组装。Microsoft 自己买 NVIDIA GPU,但网络部分另外买——主要买 Arista Networks 的交换机(Arista 是数据中心交换机老牌龙头,2014 年上市,专做超大规模云厂客户)
为什么会有两条路线? 因为大客户希望保留架构选择权——既不愿意被 NVIDIA 完全绑死,也不放弃 NVIDIA 整机的便利性。Meta、Microsoft、Google 都是同时部署两条路线的,按集群规模和成本灵活选。
无论走哪条路线,光模块都是必需品——要么由 NVIDIA 直接采购(路线 A),要么由 Arista 采购(路线 B)。
第三站:交换机厂(NVIDIA 或 Arista)采购光模块和零件:
• 向 Broadcom 买交换芯片(Tomahawk 系列,是市面上 100T 级以太网交换芯片的主力选择;NVIDIA 路线 A 用自家 Spectrum-X 芯片)——相当于网络里的"红绿灯调度器"
• 向 Lumentum、Coherent、Fabrinet 买光模块——直接插到交换机上
第四站:光模块厂(Lumentum、Coherent)自己也要采购:
• 一部分核心元件自产——特别是 InP 激光器,这是他们看家本领(Lumentum + Coherent 合计占全球 80%+ 份额)
• 一部分外采硅光子芯片——Marvell 是新进入者(2026 年 2 月通过收购 Celestial AI 入场),Broadcom 也自研
• 硅光子芯片要送到台积电做光电封装——把硅光子芯片、普通逻辑芯片、InP 激光器在一个封装基板上焊起来,台积电这道工艺叫 COUPE
到这一步,钱已经从最终用户的口袋一路传到了产业链最底层。
把这条链梳理成一句话
最终用户付费 → OpenAI 等应用层 → Azure / AWS / GCP 等云厂 → NVIDIA 整机方案 或 Arista 自组装路线 → Broadcom 交换芯片 + Lumentum / Coherent 光模块成品 → 这些光模块拆开来里面是两个核心零件:硅光子芯片(Marvell / Broadcom 设计)+ InP 激光器(Lumentum / Coherent 自产的"光通信心脏")→ 这两个零件最终送到 台积电 COUPE 工艺做光电封装,把它们焊在一起变成可用的光引擎。
整条链一共 6 层,最深的两层卡脖子并列存在:
• InP 激光器原料(Lumentum + Coherent 双寡头,全球 80%+ 份额)—— 上游的"心脏材料"
• 台积电 COUPE 光电封装(全球独家量产)—— 把所有元件整合成产品的"最后一公里"工艺
两者性质不同——一个是稀缺材料,一个是稀缺工艺——但都是别人绕不开的位置。
为什么钱沉淀在最底下两层
跟着钱走完一遍,能看到一个很清晰的规律——越往上游,玩家越少;玩家越少,议价权越大;议价权越大,利润沉淀越多。
具体到每一层:
• 整机层(Arista 等):能做整机的厂商很多。Arista 厉害在网络软件(EOS),但硬件层面竞争激烈,毛利没那么高
• 光模块成品层(Lumentum、Coherent、Fabrinet):除了 Lumentum、Coherent 自产 InP 之外,Fabrinet 这种纯组装厂技术门槛相对低,主要靠规模和制造良率取胜
• 交换芯片层(Broadcom):Broadcom 在以太网交换芯片做了 20 多年,护城河深;它在 AI 业务上的利润沉淀也不少,但分散在 AI ASIC、广播射频、网络芯片等多条业务线,并非纯粹押注光互连这一条
• 硅光子设计层(Marvell、Broadcom):还在格局形成中。Marvell 2026 年才完成 Celestial AI 收购,这一层的最终格局至少要看 2-3 年才清楚
• 台积电 COUPE(光电封装):全球唯一能把"3nm 逻辑工艺 + CoWoS 先进封装 + 硅光子整合"三种能力凑齐、并做到 AI 量产规模的工厂。三星 CPO 商用要等到 2029 年,Intel 还没真正进场。这是一个真护城河
• InP 激光器原料:全球只有 2 家能大规模造——Coherent 和 Lumentum 合计占 80%+ 份额
插个名词解释:InP(磷化铟)是一种特殊的半导体材料,能在很小的体积里产生稳定、高功率、可调谐的激光,是光通信的"心脏"。需要几十年材料学积累,造一座新厂要 5-7 年——供给极其稀缺。
真正"别人绕不开"的两层,就是 InP 激光器(材料)+ 台积电 COUPE(封装)。
回到开篇的 60 亿美元——黄仁勋砸出了什么信号
理解了这条链的结构,再回去看 NVIDIA 那三笔投资,瞬间清晰:
• 20 亿美元给 Coherent = 锁 InP 激光器原料的一半产能优先权
• 20 亿美元给 Lumentum = 锁 InP 激光器原料的另一半产能优先权
• 20 亿美元给 Marvell = 把它拉进 NVIDIA 的"NVLink Fusion"生态(顺带押注硅光子)
第三笔投资值得展开。NVLink Fusion 是 NVIDIA 2025 年推出的一套策略——把自家 NVLink 协议"半开放"给第三方,允许第三方做定制 CPU 或 ASIC(专用芯片),通过 NVLink 接入 NVIDIA 的 GPU 和整机系统。说白了就是:"你想做替代我 GPU 的 ASIC?可以,但要协同我的系统的话,得用我的协议、进我的生态。"
Marvell 是全球第二大 AI ASIC 设计公司(仅次于 Broadcom),主要客户是 AWS Trainium 和 Microsoft Maia——这些正是"替代 NVIDIA GPU"的项目。NVIDIA 砸 20 亿,本质是把潜在的最大威胁拉进自己的生态,让 Marvell 设计的定制 ASIC 在与 NVIDIA 系统协同时,仍然走 NVLink 这条路。这是一笔典型的"敌人变盟友"投资。
至于硅光子——Marvell 收购了 Celestial AI、又新进入光互连领域——这是 NVIDIA 顺带押注的"附加红利",但不是这笔投资的主因。
为什么不投 Arista?为什么不投 Fabrinet?因为这些层面玩家多、可替代性强,没必要花钱锁。
为什么没投台积电?因为台积电是 NVIDIA 自己的命脉代工厂,关系早就锁死了。
NVIDIA 这种体量的公司,主动用真金白银入股供应商,本质上承认了"GPU 卖家"这个角色不够用——它在转型成"整个 AI 工厂的土地所有者",不只是卖单卡,是卖一整套"GPU + 网络 + 光器件 + 软件"的生态准入权。
五、三代产品,三个时间点——这场仗才刚刚开始
理解了产业链结构,下一个问题是:这个故事还要演多久?
未来 3-4 年的产品路线已经清晰,分三个阶段。每一段都有具体的时间点和具体的产品。
中期:2026-2027 —— 1.6T 光模块进入主流
当前主流光模块是 800G(每秒 800 Gbit)。下一代是 1.6T(每秒 1.6 万亿 bit,速度翻倍)。
2026 年是 1.6T 起量、2027 年是 1.6T 主流化的关键两年。从行业公开数据看:
• 头部光器件厂商订单可见性已经延伸到 2028 日历年——意味着未来两年的活已经接得做不完了
• 双寡头 InP 激光器产能指引"下季度翻倍 + 2027 年末再翻倍"
• 数据中心交换机龙头 Arista 2026 年指引营收 112.5 亿美元(+25%),其中 AI 网络营收目标 32.5 亿美元(去年的 2 倍);800G 部署累计客户超过 100 家
这一段是已经在赚的钱——光模块这条链的当下繁荣,不是预期,是兑现中的现实。
2027 H2 分水岭:Rubin Ultra NVL576
时间往前推一点。2027 年下半年,NVIDIA 会发布一代叫 Rubin Ultra 的产品——这一代会把 GPU 之间通信的方式做一次根本性的变革。
具体来说,Rubin Ultra 引入一种叫 NVL576 的架构:把 8 个机柜 × 每柜 72 颗 GPU = 576 颗 GPU 组成一个"逻辑大 GPU",让它们之间的通信延迟保持在百纳秒级。
这件事的物理含义是什么?8 个独立机柜组合成一个 576 GPU 的低延迟通信域,机柜与机柜之间的高速链路必须用光——铜缆在这种距离和速率下做不到(前面讲过的距离衰减、串扰、功耗三道墙)。
NVIDIA 自己公开材料明确写:"Rubin Ultra 将采用铜 + 直接光连接的混合形态。" 意思是机柜内部的短距连接仍用铜,机柜之间的长距连接换成光——光首次进入 GPU 核心通信路径,但不是把铜赶尽杀绝,是和铜分工合作。
这是一个产业分水岭。原因在于光纤承担的"工作性质"变了:
• 之前:光纤是"机柜与机柜之间偶尔传输数据"的传送带——任务粒度大、通信频率相对低,多数情况下两个机柜各干各的活,偶尔同步一下结果
• 从 Rubin Ultra 开始:光纤要承担"576 颗 GPU 在一次推理过程中持续协同"的工作——通信粒度细、频率极高,相当于过去机柜内部铜缆的工作量,现在被搬到了光纤上
通信频率和带宽要求都是数量级跳跃。这意味着光模块从过去"用得起就行",到现在"必须满足纳秒级延迟 + TB/s 级带宽"——技术门槛和单价同时被抬升。光从外围走到了核心。
这就是 CPO 真正放量的时间点。
CPO 是什么、为什么是未来
插个名词解释:CPO(Co-Packaged Optics,共封装光学)= 把原本插在机柜外面的"可插拔光模块",搬进交换机或 GPU 芯片旁边、和芯片共用一个封装基板的下一代光互连工艺。
为什么必须做这件事?因为可插拔光模块在 2026-2027 年开始撞上三道物理墙——这不是工程师不努力,是物理本身决定的:
• 功耗墙:一个 800G 可插拔光模块功耗 15-20 瓦,一颗 GPU 配 8-16 个端口 = 200-300 瓦光功耗。下一代 1.6T 模块这个数字还会翻倍。一个高密度 AI 机柜光模块的总功耗能到几十千瓦——已经成为整柜功耗预算里大头之一
• 可靠性墙:百万 GPU 集群里,光模块数量到百万级。即便单模块故障率万分之一,整个集群每周都有几百个模块要修——运维成本指数级上升
• 空间墙:可插拔光模块要预留插拔空间、散热通道、连接器面板,物理体积大。AI 机柜要塞更多 GPU 就没地方塞模块了
CPO 把光学元件直接做进芯片封装内,三个收益是物理决定的:
• 功耗降 3-5 倍:电信号从几十厘米的电路板走线,压缩到几毫米的封装内走线
• 可靠性升 10 倍:激光器集中外置、按"一组服务多端口"组织,单元故障影响面变小
• 空间释放:不需要可插拔面板和散热通道,机柜密度可以做得更高
用一句话总结 CPO 为什么是未来:当 AI 机柜功耗冲到数百 kW(2027 Rubin Ultra)、GPU 数量冲到 576 颗(一个逻辑域),可插拔光模块在功耗和可靠性上物理上撑不住了——CPO 是唯一的工程解。
CPO 不会让光模块消失,但会改造它
很多人第一反应是"CPO 会不会让传统光模块消失?" 不会,至少 5-7 年内不会。
CPO 是叠加在传统光模块之上的下一代形态,不是替代:
• 传统可插拔光模块在 2026-2028 仍然是主流——AI 集群里 90%+ 的光通信场景,可插拔模块够用、便宜、生态成熟
• CPO 先进入的是顶尖客户的最高密度场景——比如 NVIDIA Quantum-X Photonics / Spectrum-X Photonics(2026 H1/H2 量产),主要服务超大规模云厂的核心交换机
• 真正全面铺开要到 2027 H2 之后——也就是 Rubin Ultra NVL576 把光器件第一次引进机柜内部核心通信路径那个时间点
为什么 CPO 反而让 InP 激光器需求暴涨 4 倍
这是最容易困惑的地方——既然 CPO 把激光器"集中"了,为什么总需求反而增加?
答案在两个相反方向的同时发生:
方向 A(单端口激光器数量↓):CPO 时代每个端口不再独立配一颗激光器,而是一组激光器(External Laser Source,外置激光源)通过分光器服务多个端口。单端口激光器数量减少 4 倍。
方向 B(集群端口总数↑↑↑):但与此同时,AI 集群的规模在爆炸——
• 单机柜 GPU 从 8 颗(Hopper)→ 72 颗(Blackwell)→ 576 颗逻辑域(Rubin Ultra),翻 70 多倍
• 单 GPU 通道数也从几个 → 几十个,再翻数倍
• 整个 AI 数据中心的光端口总数:估算 2027 年比 2024 年增加 30-50 倍
两个方向相乘:单端口需求 ÷4 × 端口总数 ×30 ≈ 总激光器需求 ×7-8。Coherent / Lumentum 自己给出的口径是"CPO 时代激光器需求至少 4 倍以上"——这是净增量(已经扣除"单端口减少"的部分)。
也就是说:CPO 让单点的激光器变少了,但因为部署密度暴涨更猛,总需求净增 4-8 倍——这就是为什么 InP 双寡头公开指引产能要连续翻倍,是为这个净需求做的准备。
终局:2028+ —— "光填满"
再往前推。2028 年之后,AI 数据中心会撞上几道更硬的物理墙:
• 单机柜功耗继续上升:Blackwell 一代是 120-130 kW,Rubin Ultra(2027)冲到 600 kW 级,2028 之后的新一代还会继续翻倍——一个机柜的耗电要相当于几百户家庭同时用电
• 铜缆在 200 Gbps/lane 以上彻底撞墙——继续往上不是"做不出来",是"功耗、距离、测试成本不值得"
• 光成为唯一物理解
到那时候,光模块不再只是 AI 工厂的"传菜带"——它会变成 AI 工厂的"神经突触":芯片与芯片之间、内存与内存之间、机柜与机柜之间、甚至数据中心与数据中心之间的所有通信,全部由光承担。
让两颗芯片之间那道几毫米的空气比电更快——这是 AI 这一代基础设施在做的事。这场仗,才刚刚开始。
六、但是,AI 大厂的钱真的会一直砸下去吗
到这里有一个最大的疑问绕不开:
所有这些故事的前提,是"AI 大厂会继续往里砸钱"。万一明年大厂醒过来发现 AI 不赚钱、捂紧钱包呢?整条光模块链不就崩了?
这是好问题。下面把能找到的所有证据摆出来——不是为了让你相信什么,是让你自己判断。
证据一:四大云厂 2026 年资本开支接近 7000 亿美元,同比翻倍
插个名词解释:资本开支= 公司花大钱买设备、建机房、搭基础设施的钱,不是日常运营费用。
四大云厂 2026 年最新指引:
• Amazon:约 2000 亿美元
• Microsoft:1900 亿美元(远超分析师此前预期的 1520 亿)
• Google:1800-1900 亿美元(去年的指引一路上调)
• Meta:约 1350 亿美元
四家合计接近 7250 亿美元,相比 2025 年的水平同比增加 60-77%。绝大部分都是 AI 基础设施——数据中心、芯片、网络设备。
需要强调一下:这些数字不是"预期",是财报指引——也就是 CFO 们已经签字承诺给市场的数字。
证据二:OpenAI 营收一年从 100 亿冲到 250 亿
需求端的真实性靠用户付费验证。OpenAI 公开数据:
• 2025 年初:年化营收约 100 亿美元
• 2026 年 2 月:年化营收已突破 250 亿美元(每月收入约 21 亿美元)
• ChatGPT 周活用户:从 4 亿冲到 9 亿(12 个月翻一倍多)
• 企业版收入占比:已超过 40%,预计 2026 年底和消费者收入打平
这是 SaaS 历史上从未出现过的增长曲线。OpenAI 一家公司一年新增的收入就 150 亿美元——这些钱大部分会变成它租 NVIDIA GPU 的支出,再变成 NVIDIA 买 InP 激光器、买 HBM、买光模块的钱。
证据三:Anthropic、Microsoft、Meta、Google 的 AI 业务都在跑数据
• Anthropic:2025 年企业 API 收入翻倍增长,Claude Code、Claude for Enterprise 是企业市场份额增速最快的产品
• Microsoft:Copilot 已经成为商业模式跑通的标杆——Copilot for Microsoft 365 单价 30 美元/月,企业版渗透率持续上升;Azure AI 收入达到 130 亿美元年化运行率
• Meta:广告系统全面 AI 化后,单位广告 ROI 提升被多次披露,这是它愿意每年砸 1350 亿美元资本开支的底气
• Google:搜索 AI 摘要 + Gemini 集成进 Workspace + YouTube 创作者工具——AI 已经在主营业务里产生现金流
证据四:算力供给比需求紧得多
• NVIDIA:每个季度的财报里 CFO 都会重复一句话——"我们仍然处于显著的供应受限状态"
• CoreWeave(专门做 AI GPU 出租的公司):2025 年 IPO 文件披露,被客户提前预付 60 亿美元用来锁定 GPU
• 台积电:CoWoS 先进封装产能(NVIDIA GPU 必须用)满载到 2026 年底,2027 年还要扩到现在的 2.4 倍才能勉强够用
也就是说,钱不是问题,GPU 不够才是问题——这是 AI 大厂愿意继续砸钱的最直接信号。
证据五:Token 用量曲线远比价格下跌快
这是最反直觉但也最有力的证据。
过去两年 AI 模型推理的 token 价格暴跌——同样的模型能力,价格相比 2023 年下跌超过 99%。
正常人会想:"价格跌成这样,大模型公司还怎么赚钱?"
但真实数据是相反的——用量增长得比价格下跌还快。
OpenAI 一家公司当前每天处理的 token 数量超过 1 万亿。Cursor、Claude Code、各种 AI Agent 的兴起,让 token 消耗从"用户主动输入"变成"AI 自己消耗"——一次自动化任务可能消耗几百万 token。
插个名词解释:杰文斯悖论= 经济学概念,说人话就是"东西越便宜,用得越多,总消耗反而增加"。AI 推理价格越低,应用爆炸得越快,整体算力需求不减反增。
一句话定调
这五条证据加起来,能不能 100% 保证 AI 资本开支永远涨?
不能。任何 5-10 年的预测都不可能 100%。
但综合这五条来看,AI 不再是 demo 或者题材——它已经是真实的、年营收数百亿美元规模的产业。整个 AI 基础设施这条链(包括光模块)不是建在沙上。
真正需要跟踪的不是"会不会突然崩塌",是几个具体的颠簸点:
• Rubin / Rubin Ultra 路线图任何延期
• InP 双寡头任一激进扩产带来的议价权变化
• 某一代产品规格突变带来的份额预期变化
这些是颠簸,不是熊市。
七、写在最后
写到这里,光模块这条产业链我自己心里也清楚了一些。
它在 AI 工厂的位置,过去一直被低估——很多人把目光放在 GPU、HBM、大模型上,光模块被当作"配件"看待。但事实是:
• 它是 AI 工厂里机柜与机柜之间唯一可走的传菜带——铜在距离、串扰、功耗三件事上物理上做不到
• 它的产业链有 6 层,最深的两层卡脖子在 InP 激光器(双寡头)+ 台积电 COUPE(独家封装)
• 它的需求由"AI 推理变深 + 上下文变长 + Agent 任务并发"三件物理事实推动,不是题材炒作
• 它的未来 3-4 年路线图清晰:2026-2027 1.6T 主流化、2027 H2 Rubin Ultra 切光、2028+ CPO 大规模放量
• CPO 不是光模块的终结,是光模块的下一代形态——并且因为 AI 集群规模指数级膨胀,CPO 时代 InP 激光器的总需求反而净增 4-8 倍
• 支撑这一切的 AI 资本开支当下年化 7000 亿+,且各项实际经济数据在确认这个量级是合理的
NVIDIA 2026 年 3 月那 60 亿美元,是这一切的最硬证据——黄仁勋用钱告诉所有人:卡脖子的位置在哪两层。
这场仗,才刚刚开始。
风险提示与免责声明:本文为产业科普与个人研究笔记,仅用于知识分享与学习交流。文中涉及的所有公司名称、产品、数据均来自公开资料,仅用于产业链结构说明。本文不构成任何投资建议、不推荐任何具体证券、不预测任何股价走势。AI 产业链的发展存在多种不确定性,技术路线、市场格局、政策环境都可能发生重大变化。投资有风险,决策需谨慎,请读者根据自身情况独立判断、独立决策、独立承担风险。
夜雨聆风