
一、一个被忽视的真相:AI的瓶颈不在算力,而在“连接”
如果说GPU是AI时代的“大脑”,那么光模块就是AI数据中心的“神经网络”。
没有它,再强大的GPU也只能各自为战,无法组成集群。
今天的大模型训练,竞争逻辑已经悄然改变:
算力竞争 → 网络竞争 → 光互联竞争
当OpenAI、Google、Meta在比拼谁的模型参数更大时,他们背后真正较劲的,是谁的数据中心能让10万块GPU“心有灵犀”地协同工作。
而这,全靠一个巴掌大的金属小盒子——光模块(Optical Transceiver)。

二、光模块到底是什么?
光模块本质上是一个电信号 ↔ 光信号转换器。
它的工作流程很简单:
GPU发出电信号 → 光模块转成光信号 → 光纤传输 → 另一端光模块转回电信号 → 到达另一块GPU
作用就一个:让数据以光速在数据中心里飞奔。

三、为什么铜线不行了?
你可能会问:用铜线不行吗?干嘛非要搞这么复杂?
因为AI集群的规模,已经大到铜线根本扛不住了。
看看GPU数量的膨胀速度:
1台服务器 → 8张GPU → 72张 → 576张 → 1万张 → 10万张
铜线在这种规模下,有三个致命问题:
❶ 发热严重
电流经过铜线会产生大量热量(P = I²R),数据中心空调电费都能让你破产。
❷ 距离太短
高速电信号衰减极快,PCIe铜缆、DAC铜缆通常只能传几米。
❸ 带宽瓶颈
当单端口速率达到100G、200G、400G、800G以后,铜线的损耗急剧增加,根本跑不动。
所以,AI集群必须用光纤。而光纤和GPU之间,就需要光模块来“翻译”。

四、光模块长什么样?
外观上看,光模块就是一个金属小盒子,插在交换机、路由器或AI服务器上。
常见封装形式: - SFP - QSFP - QSFP-DD - OSFP
拆开来看,内部结构堪称精密:
组件 | 作用 |
DSP芯片 | 信号补偿、纠错、均衡 |
激光器(Laser) | 产生光信号,材料多为磷化铟(InP)、砷化镓(GaAs) |
调制器 | 把0和1编码到光里(强弱光/相位/振幅) |
光纤接口 | 连接光纤,光在里面全反射传输 |
光探测器(PD) | 把光信号转回电信号,恢复数据 |

五、光互联:不只是器件,而是一整套“神经系统”
光模块只是单个器件,光互联(Optical Interconnect)则是一整套系统。
它利用光信号完成芯片、服务器、交换机之间的数据连接。
在AI数据中心里,光互联分为四个层级:
第一层:服务器内部
GPU ↔ GPU
通过NVLink连接
短距离,一般仍用电连接
第二层:机柜内部
服务器 ↔ 交换机
开始大量使用光模块
距离:几米
第三层:机房级
交换机 ↔ 交换机
几十米到几百米
光纤+光模块成为主力
第四层:园区级/数据中心间
数据中心A ↔ 数据中心B
几公里到几十公里
全靠光纤骨干网

六、为什么AI突然离不开光互联了?
答案就一个字:规模。
训练大模型的GPU数量正在指数级爆炸:
1块 → 8块 → 72块 → 576块 → 10000+块GPU
这些GPU之间需要: - 同步参数 - 传输梯度 - 共享数据
一个万卡集群,每天的数据交换量可能达到数百PB(1PB = 1000TB)。
此时,真正的瓶颈已经不是“算得多快”,而是“搬得多快”。
GPU之间的数据搬运,决定了大模型训练的效率。而光互联,就是这个搬运工。

七、速率狂飙:从10G到3.2T
光模块的速率演进,堪称半导体行业的“摩尔定律”:
10G → 40G → 100G → 200G → 400G → 800G → 1.6T → 3.2T
当前AI数据中心主流:800G
下一代:1.6T、3.2T
每一次速率翻倍,都意味着技术难度的指数级上升。

八、光模块为什么那么难做?四大门槛
很多人以为光模块只是个小盒子,没什么技术含量。
实际上,它是光学+半导体+通信+封装的超级复杂产品,四大门槛拦住了绝大多数玩家:
门槛一:激光器
核心中的核心。要求高功率、长寿命、高稳定性,误差极小,一点点偏差就会导致信号失真。
门槛二:DSP芯片
负责信号补偿、纠错、均衡。先进800G模块里的DSP,复杂度已经接近小型SoC。
门槛三:光电封装(最难)
光纤直径约125微米,激光器光斑更小。需要±1微米甚至更高的精度对准,接近半导体封装水平。
门槛四:散热
•800G光模块功耗:15W~25W
•1.6T光模块功耗:30W+
一个交换机插几十个光模块,散热压力可想而知。

九、未来趋势:CPO,把光模块“焊”在芯片旁边
目前的架构:GPU → PCB → 交换机 → 光模块
数据要走很远,功耗很高,延迟也大。
未来的CPO(Co-Packaged Optics,共封装光学):
把光模块直接贴到交换芯片旁边,变成:
交换芯片 + 光引擎 + 激光器 一体化
优势: - ✅ 功耗降低50%+ - ✅ 带宽进一步提升 - ✅ 延迟大幅下降
CPO被认为是下一代AI数据中心的核心技术,也是NVIDIA、Broadcom等巨头重点布局的方向。

十、全球格局:中国厂商站上C位
在全球AI光模块产业链中:
国际巨头: - NVIDIA(网络与CPO生态) - Broadcom - Marvell Technology - Coherent
中国力量: - 中际旭创 - 新易盛 - 天孚通信 - 华工科技
尤其在800G光模块领域,中国企业的出货量和制造能力已处于全球第一梯队。
这不是“低端制造”,而是AI基础设施的核心环节。

AI时代最重要的基础设施链条正在变成:
•GPU → 负责计算
•HBM → 负责存储
•交换机 → 负责调度
•光模块 → 负责连接
未来10年,随着万卡、十万卡、甚至百万卡AI集群的出现,光互联将像今天的GPU一样重要。
谁掌握了高速光模块、硅光技术和CPO,谁就掌握了下一代AI数据中心的“神经系统”。

夜雨聆风