AI 芯片之间,为什么开始改用＂光＂说话

导语：大家都在说 AI 缺芯片、缺电。但有个更隐蔽的瓶颈，最近才被英伟达砸了几十亿美元去补——几万张显卡挤在一个机房里，它们之间"传话"这件事，铜线已经快扛不住了。

封面：成排的 AI 服务器机柜之间，一束光纤取代铜缆把它们连起来，标题——让芯片改用"光"说话

一、先看个反差：AI 的瓶颈，正在从"算"变成"传"

前两天刷到一条新闻，英伟达又出手投资了——这回是一家叫 IREN 的数据中心公司，给了它一份最多 21 亿美元的投资权，还要一起铺最多 5 吉瓦的 AI 算力。

5 吉瓦是什么概念？差不多是五座中型核电站满负荷的输出。一家公司，光是给 AI 机房供电，就要吞掉一座大城市的用电量。

这种新闻你大概看麻了。无非又是"英伟达很猛、AI 很烧钱"。

但这次有个细节值得拎出来说：在多家分析里，英伟达看上 IREN 这类公司，除了要它的地、它的电，还有一个常被忽略的环节——把铜线换成光 。

你可能会愣一下：等等，AI 不是拼算力吗？显卡算得越快越好，这跟"光"有什么关系？

关系大了。说白了，今天训练一个大模型，早就不是一张卡的事，而是几千、几万张卡绑在一起，当成一台巨型计算机来用。卡和卡之间要不停地交换数据。算得快只是一半，另一半是：这么多张卡之间，能不能把话传得又快又省。 而这后一半，正在变成新的卡脖子环节。

先立骨架 · AI 光互连速览
• 互连是什么 ：让成千上万张 GPU 像"一台机器"协同的高速连线，分卡内、机柜内、机柜间几个层级。
• 铜的麻烦 ：电信号在铜线里跑，距离一长、速率一高，就会衰减、发热、串扰；带宽密度撞上物理天花板。
• 耗电惊人 ：业界估算，今天一张 GPU 要配约 6 个可插拔光模块，每个约 30 瓦；规模铺到百万张 GPU，光是这些模块就要烧掉约 180 兆瓦。
• 解法叫 CPO ：共封装光学（Co-Packaged Optics），把"电转光"的引擎从机箱边缘搬到芯片旁边。英伟达称这套方案能把互连功耗降约 3.5 倍、可靠性升约 10 倍。
• 时间线 ：2025 年 3 月英伟达 GTC 发布硅光子 CPO 交换机；Quantum-X InfiniBand 计划 2026 年初出货，单机 115 Tb/s、144 端口各 800 Gb/s；2026 年 5 月，英伟达宣布与数据中心商 IREN 战略合作。
• 市场：面向 AI 数据中心的光互连市场，2025 年约 37.5 亿美元，预计 2033 年涨到 180 亿美元上下。
（数据来源：英伟达投资者公告、英伟达技术博客、Yole/行业研报，2025–2026）

二、先搞懂一件事：为什么 AI 要"很多张卡一起算"

要讲清楚光互连，得先回答一个前置问题：为什么非得几万张卡绑一起？

原因很简单——一个大模型，一张卡根本装不下。

今天的前沿大模型，参数动辄上万亿。这些参数、再加上训练时产生的中间数据，要占的显存远远超过单张卡的容量。于是只能把模型"切开"，摊到很多张卡上：有的卡负责这一层，有的卡负责那一层，有的卡各算一部分。

问题来了：模型被切开了，可它本身是一个整体。这张卡算出来的结果，下一步就是另一张卡的输入。每往前走一步，卡和卡之间就要交换一大批数据。训练时还有一个环节叫"梯度同步"——每张卡各自算完，要把结果汇总、对齐，再一起更新。这一步，所有卡几乎要同时开口说话。

打个比方。这就好比一篇巨型工程图纸，一个人画不完，拆给一千个工程师分工画。画得快当然重要，可每画几笔，大家就得凑到一起对一次图、把接口对齐。如果"凑到一起对图"这一步很慢，那再多再快的工程师，也只能干等着。

这就是互连（interconnect）的活儿 ：让这一千个工程师之间传图、对图，传得越快、越省力越好。在 AI 机房里，它分好几层——一张芯片内部不同单元之间、一个机柜里几十张卡之间、一排排机柜之间，层层都要连。卡越多、模型越大，"对图"的数据量就越恐怖。

这里还有个常被混淆的区别，顺手讲清楚。机柜内部、让几十张卡"紧密绑成一台超级 GPU"的高速连接（英伟达的 NVLink 就是干这个的），业内叫"纵向扩展"（scale-up），追求的是极致带宽；而把一个个机柜、一排排机柜连成更大集群的网络（InfiniBand、以太网那一层），叫"横向扩展"（scale-out），追求的是规模。今天的麻烦在于 ：无论纵向还是横向，规模一上来，铜的老路子都开始顶不住，于是"把光往里推"这件事，在每一个层级上同时发生。理解了这点，你就明白英伟达为什么连交换机、连网络都要亲自下场——它要把每一层的"传话"都攥在手里。

到了这一步你就明白了：当卡的数量从几百张涨到几万张、几十万张，"传话"的压力是指数级往上窜的。算力可以靠堆卡解决，可"传话"这件事，堆是堆不出来的——你得让每一条线都更快、更省。

三、往下挖一层：铜线，为什么快不行了

过去几十年，芯片之间传数据，靠的都是铜。主板上的走线、机柜里的铜缆，本质都是让电信号在金属里跑。铜便宜、成熟、好用，一直够使。

但到了 AI 这个量级，铜开始撞墙，撞的是物理墙。

第一，距离和速率是天敌。 电信号在铜线里跑，频率越高、跑得越远，衰减就越厉害，还会发热、互相串扰（旁边那根线的信号会窜过来捣乱）。短距离低速率，铜很从容；可一旦要在几米开外、用极高的速率传海量数据，铜就力不从心了。这不是工艺问题，是材料的天花板。

第二，带宽密度见顶。 一张顶级 GPU 要吞吐的数据量大得吓人，需要的连线越来越多、越来越密。可铜线塞到一定密度，发热和串扰就压不住了。空间就那么大，你没法无限往里塞铜。

第三，也是最要命的——太费电。 今天的主流做法，是用"可插拔光模块"来救场：在机箱边缘，把电信号转成光、用光纤往外传，到对面再转回电。这套已经在用了，但它有个硬伤——每一次"电转光、光转电"都要耗电。

业界给过一个直观的账：今天一张 GPU 大概要配 6 个这样的可插拔光模块，每个约 30 瓦。一张卡光这些模块就近 200 瓦。要是把规模铺到一百万张 GPU，单单这些光模块加起来，就要烧掉约 180 兆瓦——这点电，够一座中型电厂全力供应，而它什么都没"算"，纯粹用来"传话"和来回转换信号。

你看，"AI 缺电"这件事，电不只烧在算力上，相当一部分烧在了"互连"上。铜+可插拔模块这套老办法，越往大里铺，浪费越触目惊心。

把"电转光"的模块放在机箱边缘（左），信号要多走一段电路；共封装光学把光引擎直接搬到芯片旁边（右），少转几道手

四、再往下，本质是这个：请光出场

既然电子在铜里跑不动、又费电，那换个介质——让信息改坐"光"。

光的好处，恰好是铜的短板。光在光纤里跑，损耗极低、几乎不发热、不互相串扰，能在更长的距离上扛住更高的速率。今天机房之间、城市之间的网络早就是光纤的天下。现在要做的，是把光一路往里推，推到离芯片越来越近的地方。

一根光纤里传输的是光信号：损耗低、几乎不发热、不串扰——铜的几个短板，正好是光的长处

这里有两个关键词，拆开就懂：

一个叫硅光子（silicon photonics）。 说白了，就是用做芯片的那套硅工艺，在硅片上"刻"出走光的微型光路，把激光器、调制器这些原本笨重分立的光学器件，集成到一小块芯片上。这样"电转光"的部件就能做得又小又省，还能跟电芯片一起量产。

另一个叫共封装光学（CPO，Co-Packaged Optics）。 这是关键一步。过去"电转光"放在机箱边缘，信号得先在电路板上走一段电路才能变成光；CPO 干脆把光引擎直接搬到交换芯片、GPU 的旁边，封装在一起。信号少绕了一大圈，少转了几道手，自然就更快、更省电。

这正是英伟达在做的事。2025 年 3 月的 GTC 大会上，它发布了基于硅光子的 CPO 网络交换机——Quantum-X（InfiniBand）和 Spectrum-X（以太网），把光的转换搬进了处理器封装，用的是台积电的相关光电工艺。官方给的数字是：这套方案能把互连功耗降约 3.5 倍、可靠性升约 10 倍。其中 Quantum-X InfiniBand 交换机计划 2026 年初出货，单机吞吐 115 Tb/s，144 个端口、每个跑 800 Gb/s。

3.5 倍的功耗差，放在百万卡的规模上，就是几十兆瓦的电费差、是真金白银。可靠性升 10 倍同样关键——可插拔模块多、接口多，坏一个就可能拖垮一片；把环节减下来，整个系统才稳得住。在动辄要连几十万张卡的"AI 工厂"里，这两条直接决定了能不能铺得起、跑得稳。

五、为什么是现在：从"可选"变"必须"

光互连不是新东西，光纤通信几十年前就有了。那为什么直到这两年，它才被推到聚光灯下、被巨头排队砸钱？

一句话：以前算力没这么密，铜够用；现在不够了。

过去机房里卡没那么多、距离没那么远、功耗没那么离谱，铜+可插拔模块这套完全应付得来，光进到机箱边缘就够。可 AI 把一切都顶到了极限——单个集群动辄几万、几十万张卡，整片园区几吉瓦地耗电。在这个量级上，互连的功耗和故障率被放大成了主要矛盾。于是，把光往芯片旁边搬这件"早晚要做"的事，从"可选项"变成了"必答题"。Tom's Hardware 在报道里直接说：对下一代 AI 数据中心，硅光子和共封装光学"可能会变成强制标配"。

产业链也在跟着转向。老牌玻璃巨头康宁，正为英伟达新建多座专做光学的工厂——英伟达在铺机柜级系统时，会越来越多地用光纤替代铜缆。而开头那笔对 IREN 的投资，本质也是同一盘棋：英伟达不只想卖显卡，它要把电、地、网络、光这一整套"AI 工厂"的环节都攥在手里，缺哪环补哪环。光，就是它正在补的那一环。

市场已经用钱投票了。据 Yole 等机构估算，面向 AI 数据中心的光互连市场，2025 年规模约 37.5 亿美元，预计到 2033 年会涨到 180 亿美元上下；更宽口径的数据通信光学市场，2025 年增速超过 60%、规模破 160 亿美元。这些数字背后，是整个行业的共识：电子负责"算"，光负责"传"，这条分工线正在被重新划定。

六、这事跟咱普通人有啥关系

聊了半天硅光子、CPO，你可能会问：这跟我有什么关系？我又不买交换机。

有三点，值得记住。

第一，重新理解"AI 很贵"。 以后再看到"某公司又投几百亿建 AI 机房""AI 太费电"，你心里要清楚：这笔账里，除了显卡和电费，还有一大块花在"让芯片之间把话传好"上。互连，是 AI 基建里一个看不见但极烧钱的环节。能把它做省的公司，等于在成本上抢到了先手。

第二，看懂英伟达到底在卖什么。 很多人以为英伟达就是个"卖显卡的"。但它这两年发的、买的、投的，越来越多是网络、是光、是整套数据中心方案。它真正在卖的，是一座能开箱即用的"AI 工厂"——显卡只是其中最显眼的一块招牌。

第三，一条朴素的技术规律。 每当一种介质跑到极限，人类就会换下一种。算盘换成电路，铜线换成光纤。今天 AI 把电子推到了墙角，于是又一次轮到光上场。理解这条线，比记住任何一个具体型号都有用。

七、小结

说到底，这一轮 AI 竞赛，表面拼的是谁的模型更强、谁的卡更多，底下拼的却是一件特别朴素的事——怎么把信息搬得又快又省。

算力决定了一群芯片"能算多快"，互连决定了它们"能不能真的拧成一股劲"。当几万张卡挤在一起、电子在铜线里再也跑不动的时候，工程师们做的，不过是请出那个一直都在、只是这次被逼到台前的老朋友：光。

电子跑不动了，就让光来跑。这世界推进的逻辑，往往就是这么朴素。

参考来源

• NVIDIA Investor Relations：《NVIDIA and IREN Announce Strategic Partnership to Accelerate Deployment of up to 5 Gigawatts of AI Infrastructure》（2026-05）
• aibusiness.com：《Nvidia in $2.1B Deal With Data Center Provider IREN》（2026）
• NVIDIA Technical Blog：《Scaling AI Factories with Co-Packaged Optics for Better Power Efficiency》（2025）
• Tom's Hardware：《Nvidia outlines plans for using light for communication between AI GPUs by 2026》（2025）
• Yole Group：《Silicon photonics and co-packaged optics at the heart of next-generation AI-driven data infrastructure》（2025）
• 英伟达 GTC 2025 关于 Quantum-X / Spectrum-X 硅光子交换机的发布材料

配图来源

• 光互连-01/02/03、封面：本文自制示意图与数据图，数据来自上述英伟达技术博客、投资公告与 Yole 行业研报（2025–2026）。
• 光互连-网络1：光纤缆线照片，Wikimedia Commons 文件 Fiber Optical Cable.jpg，授权以 Commons 文件页为准。