光电融合芯片如何将GPU、CPU和内存编织成一张网
引言:算力的真正瓶颈,不在芯片内部
2026年春天,全球最大的AI工厂里正上演一幕悖论:成千上万颗GPU在训练万亿参数大模型的过程中,大量时间花在“等待”上——等隔壁GPU的梯度传过来,等远端内存池的参数搬到本地,等跨机架的AllReduce同步完成。这不是软件调度的失误,而是物理定律划下的红线。
黄仁勋在GTC 2026上说:“数据中心就是计算机,网络定义了它的边界。”你拥有多少GPU不是关键,关键在于它们之间能以多高的带宽、多低的延迟、多少的功耗交换数据。芯片间互连正从幕后配角一跃成为决定AI系统能否“跑满算力”的核心变量。
解决方案的方向已经清晰:用光替代铜作为互连介质,将GPU、CPU和内存之间的所有通信通道编织成一张统一的光互连fabric。但这里需要做一个重要的技术澄清:虽然互连介质是光——光纤和硅光波导承担数据的高速传输——但实现光互连的芯片本身是光电融合的。光子器件负责信号的调制和传输,电子电路负责信号的驱动、接收、处理和控制。二者在同一颗芯片(或同一个封装)内紧密协作,缺一不可。
这篇文章将带你走进这场变革的全貌:它为什么必须发生,技术上如何实现,产业进展到了哪一步,以及它将如何重塑AI系统的构建方式。
铜的困境——现有互连体系为何难以为继
当前AI集群的网络在物理边界上分为两层:负责数据并行的前端Scale-out网络(如以太网、InfiniBand)早已是光模块的天下;而负责张量并行和专家并行的后端Scale-up网络(如NVLink域),才是当下铜缆危机的爆发地。当光子技术开始“攻入”原本属于铜缆的Scale-up领地,是因为以下三道物理极限已经全面收紧。
距离的极限。 高速铜缆的信号衰减与频率的平方成正比。当每通道数据率推到200Gbps(如224G SerDes)时,铜缆维持可靠信号的距离骤降至不足两米。整个Scale-up集群的拓扑设计自由度被“焊死”在极其有限的物理空间内,导致机架布局极度拥挤。
功耗的黑洞。 对抗高速铜缆的信号退化,需要SerDes中强大的均衡和预加重电路。在当今顶级AI芯片中,I/O功耗已占芯片总功耗的30%以上。我们可以用一个简单的公式来计算带宽与功耗的关系:Total I/O Power=Bandwidth×Energy per bit。如果一个交换芯片的总带宽达到 51.2 Tbps,传统可插拔光模块的能效约为 15 pJ/bit,那么仅I/O部分的功耗就将高达 768 W。当整座AI工厂功率达数百兆瓦时,I/O功耗每省几个百分点,年化节省的电费便以千万美元计。
密度的梦魇。 高速铜缆体积粗重、电磁屏蔽需求大。当集群扩展到数万个加速器时,线缆的体积、重量和散热阻挡本身变成了严重的工程障碍,迫使数据中心不得不采用极其复杂的液冷管线来绕开这些密集的“铜墙铁壁”。
此外,碎片化协议栈带来了系统性代价。GPU间用NVLink,GPU与CPU间走PCIe/CXL,跨节点用InfiniBand或以太网。数据流动的路径极其曲折,每次协议转换都在引入额外延迟和功耗,并且 NVLink 域内的“内存语义”在跨出域后会降级为“消息传递语义”,导致语义表达能力在协议边界断崖式下降。
光电融合芯片——实现光互连的核心器件
现代光电融合芯片(即“光引擎”)通常由光子集成电路(PIC)和电子集成电路(EIC)通过先进封装技术(如微凸块、硅桥或3D堆叠)集成而来。这种异构封装允许光子器件使用厚硅波导工艺,而高速电子电路使用先进的CMOS节点,从而在良率和性能上达到最优平衡。
在这个过程中,电域部分自身也在深刻演进。传统光模块内部的数字信号处理器(DSP)功耗巨大。虽然业界曾寄希望于线性直驱光学(LPO)来完全取消DSP以大幅降低功耗,但在实际的2024-2026年产业落地中,纯LPO面临着信号难以在接收端恢复以及不同厂商设备互操作性差的严重问题。
因此,产业界在“极度省电”和“信号稳定”之间找到了务实的过渡形态:半重定时光模块(HALO)或仅接收端线性光学(LRO)。这种方案在发射端保留部分重定时或均衡能力,而在接收端进行简化。在最终的CPO架构中,电域不仅没有消失,反而是在重新分配——从外挂DSP迁回计算芯片内部的集成SerDes,从复杂的数字处理简化为高线性度的模拟直驱。
三大技术支柱——CPO、OCI、OCS
共封装光学(CPO)及其外部光源(ELSFP)标准。 CPO的核心思想是将光引擎从前面板移入计算芯片的封装内部。数据从芯片核心出发,走毫米级电域路径即转换为光信号,消除了漫长的PCB电走线,使得能效大幅提升(降至约 5-9 pJ/bit)。然而,GPU表面温度经常超过100°C,而硅光芯片中的激光器对高温极其敏感,高温会导致波长漂移并急剧缩短寿命。为此,产业界确立了外部激光源可插拔模块(ELSFP)的共识标准:发热的计算芯片与光引擎共封装,而脆弱的激光源以可插拔的形式留在机箱前面板。这既解决了热管理难题,也让最容易损坏的激光器得以轻松更换。
OCI MSA:定义极高密度光互连的统一PHY。 2026年初,NVIDIA、AMD、Broadcom等巨头共同推进的OCI MSA(Optical Connectivity Industry)协议正在改变游戏规则。传统的高速以太网(如800G/1.6T)主要由IEEE 802.3dj主导,而OCI则专为极短距离(xSR)、die-to-die和芯片间极高密度光互连设计。它的核心哲学是“协议无关”:只定义光学物理层规格,不规定上层协议。这使得NVLink、UALink或CXL都可以无缝运行在同一套光学基础设施上,避免了物理层的生态分裂。
光路交换(OCS):光域中的动态拓扑重构。 传统电交换机的每跳“光-电-光”转换不仅增加微秒级延迟,还消耗大量电力。OCS在光域中直接利用微机电系统(MEMS)等技术完成路径切换,信号全程不经电域。这种零OEO延迟、近零功耗的交换方式特别适合AI训练中的集合通信(如AllReduce),因为这类操作流量大、模式可预测。通过混合交换架构——OCS承载长连接的“象流”,电交换处理突发的“鼠流”,集群的通信效率得到了质的飞跃。
协议层的演进——从碎片化到收敛分层
统一光互连在物理层是根本性变革,OCI光学PHY正在逐步取代各协议各自绑定的电气PHY规格。但这并不意味着上层协议会被强制“统一成一个”,而是呈现出功能分工明确的分层收敛趋势。
机架级/跨机架级的内存语义扩展。 CXL(Compute Express Link)正成为内存池化的主轴。随着CXL over Optics概念的成熟,GPU现在可以使用极低延迟的 load/store 指令,直接访问数个机架之外的百TB级共享内存池。这种“机架级内存语义扩展(Rack-scale Memory Semantic Extension)”打破了单机节点的内存容量墙。
高性能方言的保留。 NVLink和UALink继续作为GPU间Scale-up互连的“高性能方言”存在。它们负责提供极高带宽的紧密耦合。底层的统一带来的最大好处是软件栈的极大简化。例如,在通信库的底层实现上,代码逻辑无需再为跨越不同物理介质处理复杂的桥接。成熟状态下的协议格局将是分层结构:OCI光学PHY作为统一基座;NVLink/UALink负责Scale-up紧密耦合;CXL负责跨机架的内存语义扩展;以太网负责超大规模的Scale-out数据分发。
前沿玩家与产业格局
在光电融合的赛道上,不同阵营正在竞合交织中推进技术落地。
创新企业的光学重塑。 Celestial AI的Photonic Fabric平台成功将光互连延伸到芯片内部,本质上是在用光“无限延长GPU的内存臂展”。Ayar Labs则通过TeraPHY光I/O chiplet和配套的SuperNova外部多波长激光源(完美契合ELSFP理念),证明了在商业ASIC中集成CPO的可行性。Lightmatter的Passage平台更是通过内嵌密集光波导的3D基板,实现了纳秒级动态拓扑重构,速度远超传统MEMS OCS。
巨头的双轨布局与生态博弈。 NVIDIA既是OCI MSA的创始成员,同时又通过NVLink Fusion维护其生态控制力,允许第三方芯片在NVIDIA定义的规则下接入NVLink光域。另一方面,开放阵营通过UALink 2.0规范加速追赶,结合CXL提供的开放内存池化能力,试图构建一个不依赖单一厂商的标准化Fabric基础设施。Marvell等芯片设计巨头则在两者之间游刃有余,提供兼容多种协议的定制XPU和交换芯片。
对AI系统的实际影响
训练规模天花板的突破。 当前大规模训练在数千到数万GPU上就会遇到通信效率显著下降的问题。统一光互连通过端到端全光路径消除了多跳OEO延迟,使Scale-up域能够借助光纤不受铜缆距离限制的优势,扩展到数百甚至上千个GPU的庞大规模,彻底释放了大集群的算力潜能。
推理经济性的飞跃。 随着推理token生成量的指数级增长,每一代基础设施都必须在带宽密度和I/O能效上实现倍数级改进。光学内存池化极大地改善了KV Cache管理(使得不同推理请求可以动态共享内存池中的Cache),而端到端的光路径有效降低了推理延迟的长尾效应。
内存墙的最终突围。 万亿参数模型的参数量远超单卡HBM容量。依赖CXL over Optics建立的跨机架共享内存,让GPU能够以200-500ns的微小延迟访问数十TB的数据,大幅减少了过去因容量不足而被迫进行的低效模型切分与调度。
挑战与务实时间线
尽管蓝图宏大,但物理层从铜到光的全面替换仍需跨越几道硬性门槛:
每比特成本($/Gbps)的商业考量。 光电替代铜最大的阻力在于成本。铜缆的介质成本极低,而光互连包含探测器、调制器、激光器等精密器件,成本随通道数呈线性增加。当前业界的共识是:只有当光互连的综合成本降至 1美元/Gbps 以下,并向 0.5美元/Gbps 逼近时,才能在集群中全面取代高速铜缆。随着224G/lane甚至更高带宽对铜缆材质和均衡电路提出了极其昂贵的要求,两者的TCO(总拥有成本)交叉点正在加速到来。
制造良率与标准博弈。 硅光子制造正向300mm晶圆大规模迁移,但实现满足GPU高成本封装要求的KGD(已知良好裸片)良率仍需工程打磨。同时,半封闭的极致性能(如NVLink)与开放标准(UALink+CXL)之间的博弈,意味着短期内市场上将并存多个平行的光互连生态。
分阶段的时间线演进:
- 2026-2027年
:CPO在顶级交换机层实现早期量产(配合ELSFP),OCS在头部云厂商的特定训练集群中扩展部署,LRO/HALO等过渡模块大量替代传统带DSP的光模块。 - 2028-2029年
:CPO正式进入GPU的Scale-up互连,CXL光学内存池化开始早期商用,TCO优势在大规模AI工厂中得到财务验证。 - 2030年以后
:全光电融合互连Fabric成为AI数据中心的默认底层架构,系统从“互联受限”跃升到“互联透明”。
结语
这场变革的赢家不是“光”也不是“电”,而是“光电融合”。光在芯片间、机架间负责高速搬运数据,电在光电融合芯片内部驱动器件、处理信号、维护协议。光电转换界面从前面板越过主板,直接扎根于芯片封装内部,电域路径缩到了最短,光域路径延到了最长。
NVLink不会消失,CXL不会消失,以太网也不会消失。物理层从铜到光的替换,就像一次数据中心底层的地质运动——缓慢、深刻且不可逆。当它完成时,今天的“拼装式”AI架构将被一个更加宏伟简洁的系统取代。一座AI工厂的所有GPU、CPU和内存,将像一台超大计算机的内部组件一样无缝协同。数据从任何处理器到任何内存,走的都将是一条由光子携带、由电子驱动的融合路径。
夜雨聆风