引言
人工智能的爆炸性成长彻底改变了数据中心基础设施需求。随着 AI 训练和推理工作负载要求更高带宽、更低延迟以及大规模集群扩展,光通信的角色变得越来越重要。本文探讨光学互连如何支撑下一代 AI 数据中心,该市场预计到 2030 年将达到 730 亿美元 [1]。
AI 数据中心网络架构演进
现代 AI 数据中心面临铜基解决方案无法单独应对的挑战。训练大型语言模型和大规模执行推理需要连接数十万个加速处理单元 (XPU),跨越多個机架甚至多个数据中心设施。网络带宽需求大约每两年翻倍,同时必须保持最低延迟以维持训练效率。这些需求正推动光通信从传统的长距离应用进入过去由铜互连主导的领域。

图 1:AI 网络架构包含后端扩展 (scale-up)、后端扩容 (scale-out)、前端扩容和跨数据中心 (scale-across) 等领域
AI 数据中心的架构已演变成不同的网络领域。后端扩展网络使用高带宽、低延迟链路来连接运算托盘内的 XPU。后端扩容网络聚合多个运算托盘和机架。前端扩容网络处理 AI 集群与存储或其他服务之间的通信。最后,跨数据中心领域实现不同数据中心之间的通信。每个领域都有特定的性能要求,影响互连技术的选择。
铜线在 AI 扩展中的限制
铜互连传统上提供可靠性、低成本和最低功耗。产业理念长期以来一直是「能用铜就用铜,必须时才用光」。然而,AI 的扩展需求正在挑战这种做法。直连铜缆 (DAC) 在更高速度和更长距离下会经历严重的信号衰减。即使使用高品质的 200 Gbps 串并转换器 (SerDes) 技术,DAC 传输距离可能只能达到 2 公尺,无法满足当前架构中较长的机架内连接需求。
主动铜线解决方案包括主动铜缆 (ACC) 和主动电子铜线 (AEC),通过使用线性均衡器和数字信号处理器进行信号重新定时来延伸性能。这些技术有帮助,但在网络连接跨数据中心排的多个机架时也会失去效用。电信号传播的基本物理特性限制了铜线在现代 AI 集群所需距离上传输高带宽的能力。

图 2:预期 AI 光学收发器市场将从 2025 年的 126 亿美元激增至 2030 年的 454 亿美元,主要由高速 (800G/1.6T/3.2T) 模组的需求推动
光学网络为超过 10 公尺距离的高带宽、低延迟性能提供解决方案。虽然铜线不会完全消失(预计到 2030 年将占端口数的 29%),但绝对增量端口成长的主体将来自光学领域。这种转变代表光学元件和系统的总潜在市场大幅扩张。
光学收发器原理
光学收发器是数据中心光学网络的主力。这些可插拔模组将电信号转换为光信号以便在光纤缆线上传输,并在接收端执行反向转换。尽管出现了线性可插拔光学 (LPO) 和光电共封装 (CPO) 等新兴技术,完全重新定时的收发器将继续作为高速模组的基础,市场预计将从 2025 年的 130 亿美元成长至 2030 年的 450 亿美元。

图 3:收发器由 DSP、模拟电子元件和光学引擎组成
在现代光学收发器内部,三个主要子系统协同工作。数字信号处理器 (DSP) 执行信号重新定时、均衡和前向错误校正,以确保可靠的数据传输。模拟电子元件包括驱动器和互阻抗放大器 (TIA),在数字和光学领域之间进行接口。光学引擎包含实际产生和检测光信号的激光、调制器和光电探测器。这些元件必须协调工作,以达到 AI 网络所需的性能水平。
SerDes 电气连接将收发器连接到印刷电路板上的交换机 ASIC。在发送端,DSP 将数字信号转换为模拟信号,驱动光学引擎的调制器将数据编码到光束上。在接收端,光电探测器将进入的光转换回电信号,TIA 将其放大,DSP 在将信号发送到交换机 ASIC 之前还原信号。这种架构已证明具有显著的可扩展性,支持从 10 Gbps 到目前 800 Gbps 模组及更高速度的连续世代。
收发器市场动态强化
过去,光学收发器的采用曲线显示出强劲的初始出货量,随后随着竞争加剧,价格快速下滑。世代持续多年 ——10 Gbps 持续了七年,而 100 Gbps 持续了五年 —— 需求成长相对温和。AI 的兴起改变了这些动态。现代收发器世代现在以不到三年的周期发布,因为网络带宽需求每两年翻倍。

图 4:收发器周期正在重叠,在更高速度下变得更持久(持续多年)
目前的 800 Gbps 周期展示了这些新动态。大量出货从 2023 年开始,但预计要到 2028 年才会达到约 8400 万单位的峰值。800 Gbps 模组的价格下降速度比历史周期慢,尽管随着技术成熟和 CPO 提供竞争压力,预计 1.6 Tbps 和 3.2 Tbps 的过渡将看到更快的价格下滑。模组的产业产能已变得紧张,支撑定价能力,而超大规模厂商以交错阶段采用新世代,创造重叠的需求周期,同时支撑多个世代。
这些动态为收发器供应商创造了结构性的中期正面环境。需求的上升潮应该使所有供应商受益,无论市场份额如何。虽然最终可能会出现下行周期,但需求管线可见度延伸至 2027 年,表明这种风险仍然遥远。
激光技术:光学模组的核心
激光技术的选择对收发器性能、成本和应用适用性有重大影响。三个主要类别占据主导地位:垂直腔面发射激光 (VCSEL)、电吸收调制激光 (EML) 和基于硅基光电子的连续波 (CW) 激光。每种技术根据距离、速度和成本要求占据特定利基。
VCSEL 作为 50 公尺以下短距离应用中 800 Gbps 模组的主力,特别是在后端 AI Fabric 网络中。采用砷化镓 (GaAs) 基板,使用成熟的制造工艺建造,VCSEL 提供低成本和低功耗,适合高密度部署。在多模光纤上以 850 纳米波长运作。目前的 VCSEL 支持每通道 100 Gbps,实现 400 Gbps 和 800 Gbps 收发器,尽管一些供应商已展示每通道 200 Gbps 的能力。Broadcom 和 Coherent 主导 VCSEL 供应,Coherent 将这些激光垂直整合到自己的收发器中。

图 5:VCSEL 激光直接调制,而 EML 使用 EA 或 DFB-MZ 调制,在长距离高速下保持信号完整性
对于超过 100 公尺并延伸至城域和长途电信应用(10-40 公里)的更长距离,需要基于磷化铟基板的单模元件。EML 在这些应用中表现出色。电吸收调制技术减少啁啾 —— 导致突然波长变化的激光不稳定性 —— 在长距离传输期间保持信号完整性。目前每通道 100 Gbps 的 EML 支持 400 Gbps 和 800 Gbps 模组,而每通道高速 200 Gbps 激光正在增加,用于 1.6 Tbps 应用。
尽管 EML 的现场可靠性已得到证明,已部署数亿个元件,但面临严重的供应短缺。在单晶片上整合调制的复杂性使生产困难且昂贵,200 Gbps EML 每个元件成本 10-15 美元。像 NVIDIA 这样的关键客户已经锁定多年供应分配,造成紧张的可用性。Lumentum 以约 50% 的市场份额领先高速 EML,而 Coherent 在德州设施中扩大 6 英寸磷化铟基板产能,增强竞争地位。
基于硅基光电子的 CW 激光代表日益重要的第三类。这些「哑光灯泡」只是将恒定的、未调制的光照射到硅基光电子晶片中,实际的数据编码通过整合调制器发生。该方法利用 200-300mm 晶圆厂中成熟的 CMOS 制造工艺,实现大批量、相对低成本的生产。每个 CW 激光可以支援四个通道,而每个 EML 支持一个通道,减少激光总数,尽管这种好处被更高的激光复杂性所抵消。
EML 的严重短缺正在推动基于 CW 激光解决方案的采用增加,因为可用性和可扩展性更好。Coherent 和 Lumentum 的大量内部磷化铟产能使其成为关键的 CW 激光供应商。然而,Lumentum 优先考虑 EML 的内部产能,并从 AIM Photonics、Advanced Micro Foundry、GlobalFoundries 和 Tower Semiconductor 等一级晶圆厂采购 CW 激光,整合到其 CloudLight 收发器中。

图 6:到 2030 年,AI 光学元件可以达到 1.3 亿单位,由硅基光电子主导
产业正在经历向硅基光电子的技术转变。虽然 VCSEL 和 EML 主导早期世代,但硅基光电子将从 2025 年占 AI 光学单位的 38% 成长至 2030 年的压倒性 84%。这种转变反映了收发器中采用 CW 激光以及预期的 CPO 解决方案增加,这些解决方案大量利用硅基光电子整合。AI 光学元件市场预计将从 2025 年的 3600 万单位扩展至 2030 年的 1.3 亿单位,硅基光电子推动这一成长的大部分。
线性可插拔光学:节能的中间方案
线性可插拔光学 (LPO) 和线性接收光学 (LRO) 代表中间解决方案,结合传统可插拔收发器的实用优势与接近 CPO 水平的显著节能。这些技术解决日益增长的功耗挑战,同时保持熟悉的前面板可插拔设计,简化部署和升级。
LPO 模组消除传统收发器中高功耗的 DSP,将功耗从约 15 皮焦耳 / 比特降低至 6-10 皮焦耳 / 比特。模组中只保留基本均衡和互阻抗放大器。这接近 CPO 的 5 皮焦耳 / 比特效率水平,同时保留可插拔 form factor。权衡是交换机 ASIC 的 DSP 必须处理信号放大和还原,需要优越的 SerDes 能力。产业互通性仍在通过 LPO 多源协议 (MSA) 进行中,尽管标准化工作正在推进。
LRO 采用混合方法,在信号完整性问题最严重的发送端保留 DSP,同时消除接收端 DSP。如 Credo Technology 所展示,功率效率仍达到 10 皮焦耳 / 比特以下,而性能比纯 LPO 在每通道 200 Gbps 应用中更可靠。LRO 保持纯 LPO 缺乏的传统可插拔诊断和遥测功能,提供操作优势。

图 7:尽管快速成长,到 2030 年 LPO/LRO 可能只占 AI 光学 TAM 的中个位数百分比
LPO/LRO 市场预计将从 2025 年的几乎为零扩展至 2030 年的超过 50 亿美元,采用偏向 LRO 解决方案,约占总数的 63%。这些技术作为中间解决方案,特别适合 1.6 Tbps 的扩容应用,在效率 - 性能权衡最佳且可能实现标准化的情况下。然而,这仍然是一个利基市场,在 2025-2030 年期间最多占光学 TAM 的 8%。超过每通道 400 Gbps 速度,LPO 和 LRO 变得不可行,使 CPO 成为下一代需求的明确解决方案。关键供应商包括 Macom 的 LPO/LRO 晶片组、Credo 的 LRO 模组和 Semtech 的 LPO/LRO 模组。
光电共封装:高效能网络的未来
光电共封装 (CPO) 代表一种架构转变,将光学元件直接整合到与交换机 ASIC 相同的封装基板上。这种紧密整合绕过铜互连和可插拔光学元件的技术限制,提供更高带宽、更低延迟、更优越的功率效率和更少的潜在故障点。这些优势使 CPO 对于以空前规模互连下一代 AI 集群至关重要。

图 8:CPO 与可插拔元件不同,将光学元件直接整合到交换机 ASIC 基板上,这意味着数据信号传输距离更短(更低的信号损耗)并通过硅基光电子而不是 PCB 上的铜线(更高带宽)
传统可插拔收发器通过印刷电路板上的电气走线连接到交换机面板。通过这些铜走线传输的信号经历显著的电气损耗 —— 根据 NVIDIA,每个 200 Gbps 通道高达 22 分贝。电气和光学领域之间的转换发生在可插拔模组中,该模组距离交换机 ASIC 几英寸,并包含高功耗的 DSP 以补偿信号衰减。
CPO 根本改变了这种架构,将光 - 电转换直接重新定位到交换机封装基板上,紧邻 ASIC 裸片。数据信号现在只传输几毫米而不是几英寸,并通过先进封装互连而不是损耗性 PCB 走线。这大幅降低电信号损耗,从约 22 分贝降至 NVIDIA Spectrum-X 交换机实现中的仅 1-2 分贝。

图 9:Nvidia 的 Spectrum-X CPO 解决方案相比可插拔元件提供 64 倍更好的信号完整性
节能同样显著。CPO 解决方案消耗约 5 皮焦耳 / 比特,路线图延伸至低于 1 皮焦耳 / 比特,而传统收发器为 15 皮焦耳 / 比特。NVIDIA 的 Spectrum-X 交换机将功耗降低至仅 9 瓦特(激光源 2 瓦特,光学引擎 7 瓦特),而等效可插拔收发器约 30 瓦特。Broadcom 声称节能超过 3.5 倍,每比特光学元件成本降低 40%,带宽密度超过每毫米 1 Terabit。对于光学元件可以消耗高达 40% 总功率的大型 AI 集群,这些节省转化为大规模的运营成本降低。
更短的电气路径和消除高功耗的 DSP 也显著降低延迟。信号路径中较少的元件意味着较少的潜在故障点,提高整体系统可靠性。紧密整合光子技术的确定性特性实现更可预测的性能,这对需要跨数千个加速器同步的大规模 AI 训练至关重要。
CPO 生态系统发展与采用
CPO 的客户接受最初面临挑战,包括自然的风险规避、对现有可插拔解决方案的强大生态系统支持、对供应商锁定的担忧以及有限的系统可配置性。然而,令人信服的性能优势正在推动快速的采用动力。Meta 在 2025 年开放运算专案会议期间报告,实现 CPO 相比重新定时光学元件节能 65%。CPO 还展示了在每通道 100 Gbps 时比 LPO 低 35% 的功耗,驳斥了 LPO 在较低速度下提供类似效率的论点。

图 10:未来的 CPO 解决方案可能拥有与铜基解决方案相媲美的能源效率,这将使光学元件在扩展中的渗透成为越来越大的可能性
技术路线图显示持续改进潜力。Broadcom 的互连能耗预测表明,中级和先进的 CPO 解决方案最终将在皮焦耳 / 比特基础上与甚至铜基的直连铜缆 (DAC)、主动铜缆 (ACC) 和主动电子铜线 (AEC) 方法相媲美。这可能解锁目前由铜主导的扩展领域的大规模机会。随着这些优势变得可实现,开发和优化 CPO 解决方案的动力加速。
关于 CPO 的可靠性担忧已通过改进的元件设计和封装技术在很大程度上得到解决。焦点已转向确保固有的高可靠性,而不是使元件易于更换。某些 CPO 设计将高风险的主动元件如激光分离到可插拔的外部激光源 (ELS) 模组上,如果需要可以轻松更换,结合 CPO 的整合优势与可维护性优势。
在 2025 年开放运算专案会议上,Meta 展示了 Broadcom Bailly CPO 交换机的评估结果,显示 1500 万元件小时的测试中没有任何无法维修的 CPO 故障。平均故障间隔时间超过 250 万小时,而最可靠的可插拔元件低于 100 万小时。这种可靠性的显著改善对应于 24000 个 GPU 集群的 GPU 利用效率提高 90%。Broadcom 预计第二代 Bailly 产品和即将推出的 Davisson 平台将进一步提高可靠性。
CPO 市场预测与机会
随着技术成熟和采用加速,CPO 市场准备爆发式增长。CPO 光学元件(主要是激光)的销售预计将在 2028 年开始有意义的转折点,达到 28 亿美元,然后在 2030 年激增至 150 亿美元。作为光学端口的百分比,CPO 将在 2030 年达到总 AI 端口的 31%,从传统收发器中夺取大量份额。在通道速度基础上,约 66% 的 3.2 Tbps 端口将利用每通道 400 Gbps 的 CPO,远高于 1.6 Tbps 的 23% 渗透率。

图 11:到 2030 年,150 亿美元的销售额,CPO 可能占光学 TAM 的 20%
扩展机会可能比扩容更大。扩容的初始 CPO 部署已经发生,因为支持 CPO 的以太网和 InfiniBand 交换机已经可用。然而,扩容代表光学元件已经发挥重要作用的市场,因此 CPO 主要蚕食现有收发器收入,同时提供功率和效率改进。
相比之下,扩展网络今天几乎完全基于铜。初始扩展 CPO 部署可能最早在 2027 年底开始,到 2030 年快速增加,达到 90 亿美元的市场 —— 占整体 CPO 总潜在市场的 60%,大于 56 亿美元的扩容机会。扩展带宽需求是扩容的 9 倍,协定完全是专有的,与 XPU 紧密耦合,市场代表真正的蓝海机会,没有现有的光学解决方案可蚕食。

图 12:到 2030 年,CPO 可能占扩展交换机 ASIC 市场的 39%
包括 CPO 和非 CPO 解决方案的总交换市场将从 2025 年的 71 亿美元扩展至 2030 年的 569 亿美元,复合年增长率为 52%。CPO 目前占该市场的不到 2%,主要限于工程样品,但将在未来五年内扩展至 42% 的份额,相当于到 2030 年达到 244 亿美元的 CPO 交换市场。虽然 CPO 收入从 2025-2027 年成长 8 倍,但真正的转折点发生在 2028 年,横跨扩容和扩展领域。
对于扩容,51.2 Tbps 及以上的交换机市场将从 2025 年的 26 亿美元成长至 2030 年的 234 亿美元,复合年增长率为 55%。CPO 今天仅占 9300 万美元,但将激增至 2030 年的 90 亿美元,尽管仅占单位出货量的 14%,却达到 39% 的市场份额。差异反映了 CPO 平均售价显著较高 —— 例如,2027 年 115.2 Tbps InfiniBand CPO 交换机定价约 34000 美元,而没有 CPO 的仅 18000 美元。
CPO 供应链与关键参与者
CPO 供应链涵盖交换机 ASIC 供应商、元件供应商、模组制造商和基础技术提供商。了解这个生态系统对于评估市场机会和竞争动态至关重要。
Broadcom 已成为非 NVIDIA 生态系统的 CPO 领导者,向超大规模厂商和原始设备制造商 (OEM) 如 Dell 和 Arista 提供关键元件。该公司的第三代 Davisson 平台基于 Tomahawk 6,于 2025 年 10 月发布,提供业界领先的 102.4 Terabit 的容量 —— 是任何可购买竞争产品的两倍。Davisson 相比标准可插拔解决方案节能 3.5 倍,支持每通道 200 Gbps 速度。该平台整合 TSMC 的紧凑型通用光学引擎 (COUPE) 技术,减少信号调节需求,最小化走线损耗和反射。Broadcom 还提供专有光学引擎平台,可以与任何高功率 ASIC(不仅仅是交换机)共封装。
NVIDIA 在 2025 年 GPU 技术会议上展示了两个 CPO 系统:Quantum-X InfiniBand Photonics 和 Spectrum-X Ethernet Photonics。Quantum-X 于 2026 年初商业化,具有 115 Terabit 的交换容量和 144 个每个 800 gigabit 的端口。该系统利用液体冷却来管理来自微环调制器的热挑战。Spectrum-X 于 2026 年底可用,提供 102.4 Terabit,具有 128 个每个 800 gigabit 的端口,或具有 512 个端口总计 409.6 Terabit 的更大配置。两个平台都采用使用 TSMC 的 COUPE 制程制造的光学引擎,该制程使用先进的 2.5D/3D 整合将电子整合线路堆叠在光电子晶片顶部。

图 13:MRVL 在 2025 年 OCP 展示的 CPO 交换机解决方案是技术验证,而非市场就绪产品
Marvell 广泛的产品组合跨越高性能 SerDes、光学 DSP 和互连,使其能够在 XPU 和交换机 ASIC 应用的 CPO 中竞争。2025 年 1 月,Marvell 宣布其用于定制 AI 加速器的 CPO 架构,通过将光学元件整合到定制硅中,实现比电互连长 100 倍的扩展连接。该架构在同一基板上结合 XPU、高带宽记忆体和专有 3D 硅基光电子引擎。Marvell 收购 Celestial AI 通过 Photonic Fabric 技术增强其长期 CPO 地位,该技术使光电子技术能够直接共封装在 XPU 或交换机顶部而不是封装边缘,释放宝贵的裸片边缘空间用于额外的高带宽记忆体,同时实现 2.4 皮焦耳 / 比特的功率效率。
Lumentum 凭借光学元件能力、内部磷化铟生产以及与 NVIDIA 等 CPO 先驱的关系,在 CPO 方面具有强大的竞争地位。该公司被宣布为 NVIDIA Quantum-X 和 Spectrum-X 系统的合作伙伴和关键超高功率激光供应商。每个 400 毫瓦 CW 激光为四个通道供电,而每个 200 Gbps EML 为一个通道供电,因此虽然激光数量下降约 4 倍,但平均售价也可能增加约 4 倍,达到每个超高功率激光超过 50 美元,而 200 Gbps EML 为 10-15 美元。

图 14:LITE 处于有利位置,可通过其 UHP 激光和 ELS 可插拔元件从 CPO 中受益
CPO 可能代表 2026 年实现每季 5000 万美元的市场机会,Lumentum 的英国和圣荷西工厂专用于激光生产,并迅速达到满负荷利用。与 NVIDIA 的多年供应协议换取 20 亿美元的股权投资,涵盖到本十年末的数十亿美元销售。Lumentum 指出超高功率激光的可靠性是关键竞争优势。该公司还披露了从 2027 年上半年开始的单独大型 CPO 生产订单,以及在 2027 年下半年获得吸引力的扩展 CPO 参与。
Coherent 的主要数据通信收发器业务面临潜在的 CPO 冲击,但该公司预期在过渡发生时将有强大的内容参与。到 2030 年,Coherent 预测 CPO 的总潜在市场为 50 亿美元,涵盖扩容和扩展,偏向扩展。来自可插拔收发器的许多元件延续到 CPO,包括 CW 激光、探测器、被动光学元件和热控制。新的内容机会包括外部激光源、保偏光纤和光纤连接单元。
Coherent 也被宣布为 NVIDIA 的 CPO 合作伙伴。2025 年 9 月,该公司开始取样用于 CPO 的高功率 400 毫瓦 CW 激光。Coherent 在德州 Sherman 设施进行的大规模 6 英寸磷化铟产能扩张 —— 产能提升 4-5 倍 —— 随着 CW 激光需求加速,提供显著的竞争优势。预计超高功率激光将于 2026 年第三季度普遍可用。Coherent 还从 NVIDIA 获得 20 亿美元股权,以换取从 2027 年开始并延伸至 2030 年的数十亿美元 CPO 供应协议,涵盖包括激光和模组在内的多条产品线。
光学线路交换机:转型数据中心架构
除了互连之外,光学线路交换机 (OCS) 解决 AI 集群交换基础设施的挑战。这些全光网络元件直接在光纤之间路由光路径,无需将信号转换为电力,消除与传统光 - 电 - 光 (OEO) 分组交换机相关的处理开销、功耗和延迟。
使用 OEO 交换机的传统脊叶架构面临 AI 应用的多重限制。每一代网络速度翻倍需要每 18-24 个月进行昂贵的硬件升级。在光学和电气领域之间转换信号消耗大量电力 —— 对于机架已接近 1 兆瓦的功率受限数据中心来说不可承受。信号重新定时引入延迟,使电交换机在对延迟敏感的 AI 工作负载中处于不利地位。最重要的是,AI 集群变得异常复杂和庞大,跨越多個机架甚至多个数据中心的数千个 XPU,需要 OEO 解决方案难以大规模提供的高性能交换。
OCS 通过几个关键优势解决这些挑战。功耗大幅下降 ——OCS 通常仅消耗 100-200 瓦特,而传统交换机消耗数千瓦。链路带宽仅受光纤容量限制,因为没有信号处理发生,使 OCS 对数据速率和协定都不可知,无论是以太网、InfiniBand、UALink 还是专有标准。延迟接近理论最小值,没有缓冲。该架构被证明具有高度确定性,具有对 AI 同步需求有利的固定点对点连接。原生高端口数有助于扁平化网络拓扑,不会牺牲速度。最后,OCS 在链路中需要的光学模组减少高达 50%,提高整体交换机可靠性。

图 15:OCS 目前最常用于脊交换机更换、AI 扩展和扩容以及冗余应用
目前的 OCS 应用分为三个主要类别。脊交换机更换代表最大的使用案例,由 Google 开创,在 2022-2023 年 Project Apollo 网络重新设计期间用其内部 Palomar 光学线路交换机更换传统脊交换机。多个其他超大规模厂商现在正在探索 OCS 用于脊更换,被大量成本和功耗节省所吸引,同时保持可扩展性。细粒度分组交换仍然发生在机架顶部交换机和较低聚合区块,OCS 脊处理较大的数据流。
第二个主要应用涉及直接连接扩展网络中的加速器机架。Google 为其张量处理单元开创了这种方法,使用 OCS 无缝地在数千个 XPU 的集群中移动工作负载,根据最佳拓扑或绕过节点故障具有高可配置性。每个 64-TPU 立方体通常连接到 48 个光学线路交换机。使用 OCS,多个立方体拼接在一起,为 TPU v7 创建高达 9216 个加速器的大规模连接。网络可以「切片」成较小的逻辑区块用于不同的工作负载,支持数千种拓扑。集群可用性提高,因为链路绕过任何故障点重新路由。

图 16:在多个 4x4x4 TPU 立方体的超级集群内,可以互连 TPU 的各种组合和切片,以专注于不同的工作负载,同时避免故障节点
冗余代表第三个关键应用。考虑到现代 AI 网络的巨大规模,故障点是不可避免的。OCS 实现将光路重新路由到替代服务器或加速器(如果发生问题),确保持续正常运行时间。这减少了以整个网络停机为代价修复节点所花费的时间和资源,同时通过简单地重新平衡远离受影响节点的流量使维护变得简单。OCS 插入可以发生在各种聚合层之间或朝向更高的网络层。
OCS 技术选项与市场展望
多种光学线路交换机技术在市场上竞争,各有不同的特性。基于微机电系统 (MEMS) 的交换机代表最常见的解决方案,在现场部署超过十年。MEMS OCS 利用嵌入在硅基板上的微型可移动反射镜阵列在输入和输出光纤之间引导光信号。插入损耗通常保持较低,而端口数较高,实现扁平化的网络架构,有助于扩展巨大的 100000+ GPU 集群。Google 的 Palomar 和 Lumentum 的 R300 领导 MEMS 产品。
Lumentum 的 R300 旗舰产品支持 300x300 端口数,插入损耗为 1.5 分贝或更低。3D-MEMS 架构使用连续倾斜镜,允许精确的输入到输出对准,而单晶硅 MEMS 设计消除铰链疲劳。R300 提供跨 O 波段、C 波段和 L 波段波长的超宽带能力。Lumentum 还在 2025 年底推出了 R64 OCS,在紧凑 form factor 中具有 64x64 端口数,适合 GPU 互连 Fabric 和数据中心互连应用。
Coherent 提供唯一的液晶基 OCS 平台,提供从 64x64 到 512x512 端口的系统,正在开发更高数量。液晶 OCS 的工作原理是让光通过像素,使用液晶特性通过二维转向将信号定向为向上、向下、向左或向右。像素组合成面板,聚合成形成完整交换机的面板堆叠。该技术利用数字显示应用的成熟方法。关键优势包括低于 10 伏特的低驱动电压和与 MEMS 不同的无机械移动部件。该技术源自海底网络,可靠性至关重要。Coherent 已追踪 303 亿液晶元件小时,归因于液晶本身的故障少于 3%。数字液晶还提供固有的低串扰,这对 AI 训练具有高度破坏性。
光学线路交换机市场预计将从 2025 年的约 10 亿美元成长至 2030 年的 43 亿美元,代表 35% 的复合年增长率,完全由单位成长驱动,因为平均价格下降至中等 10000 美元范围。作为交换总潜在市场的百分比,OCS 可能从今天的约 8% 下降至 2030 年的 5%,但整体电交换市场的高个位数百分比为类别规模提供了合理的长期参考。强劲的超大规模厂商采用超越 Google,跨越包括扩容、扩展、数据中心互连和冗余在内的多个应用将推动这一成长。
结语
AI 数据中心的光学互连技术为半导体产业带来显著的成长机会。随着 AI 网络总潜在市场预计到 2030 年达到 2450 亿美元,其中光学元件占 730 亿美元,人工智能的扩展需求正在改变数据中心的建设和运营方式。传统光学收发器将通过重叠的 800 Gbps、1.6 Tbps 和 3.2 Tbps 周期继续稳健成长。光电共封装将开辟全新市场,特别是在目前由铜主导的扩展网络中。光学线路交换机将实现空前的集群规模,具有优越的功率效率和可靠性。
跨越激光制造商、元件供应商、模组制造商、交换机 ASIC 供应商和系统整合商的供应链面临巨大需求,产能紧张,扩张交期长。像 Marvell 这样的公司受益于强大的 DSP 市场份额,因为速度从 800 Gbps 过渡到 1.6 Tbps。Lumentum 在 EML 和 CW 激光方面的领导地位使其在收发器和 CPO 方面处于有利位置。Coherent 的磷化铟供应优势使其能够在收发器和 CPO 中扩大份额。NVIDIA、Broadcom 和 Macom 也将显著受益。
推动这一转变的基本物理原理 —— 铜在高速和长距离下的限制、光电子技术整合的功率效率、全光学交换的可扩展性优势 —— 确保光学元件将在 AI 基础设施中发挥越来越核心的作用。随着集群从数万个扩展到数十万个加速器,光学互连从锦上添花的功能转变为使 AI 扩展在经济上可行和技术上可行的必要条件。
参考文献
[1] V. Arya et al., "Scaling AI with Photons: Primer on Optical Interconnects," BofA Global Research, Bank of America Securities, Tech. Rep. 12902733, Mar. 2026.
END
点击左下角"阅读原文"马上申请
欢迎转载
转载请注明出处,请勿修改内容和删除作者信息!

关注我们
![]() | ![]() | ![]() |
关于我们:
深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。
http://www.latitudeda.com/
(点击上方名片关注我们,发现更多精彩内容)
夜雨聆风

