当英伟达的B200和Blackwell GPU将单芯片算力推至史无前例的高度,当十万人级别的AI训练集群让数据中心变成一个个百兆瓦级的"电力巨兽"时,一个曾在产业边缘徘徊了二十年的技术,突然从实验室的"有趣概念"一跃成为科技巨头的必争之地——硅光子学。过去一年,英伟达向Lumentum和Coherent各砸下20亿美元锁定光芯片产能,台积电的COUPE硅光引擎平台按计划推进至2026年量产节点,英特尔展示可拆卸玻璃耦合CPO方案,博通以Bailly平台领跑交换机CPO商用……所有人都在用真金白银回答同一个问题:为何一夜之间,所有人都盯上了硅光?

"铜墙铁壁":当电互连的物理学天花板砸向AI集群
要理解硅光为何此刻爆发,必须先直面那条正在逼停AI基础设施扩张的红线——铜线。
几十年来,数据中心的内部骨架是由铜缆和PCB走线搭建的电互连网络。它便宜、成熟、工程师们闭着眼就能设计。但当AI工作负载把集群规模推到万卡、十万卡级别,当SerDes速率从112G猛攻224G乃至更高,这根骨架开始嘎吱作响。问题有三个,而且都是物理定律级别的死胡同:
第一是距离极限。 当传输速率迈向1.6T,直连铜缆的有效传输距离被压缩到不到1米——仅仅够在一个机柜内连几台设备,跨机柜?信号衰减和串扰直接将其判死刑。业内把这叫作"1米极限"。
第二是功耗爆炸。 铜线的电阻不会随速率升高而消失,反而变得更讨厌。把信号推得更远、更快,意味着更大的驱动电流、更多的热量。数据中心纵向扩展架构的硬指标——每比特功耗须低于2 pJ、延迟低于1 μs——正在被铜线无情击穿。一个万卡集群花在"搬数据"上的电,可能已经接近甚至超过花在"算数据"上的电。
第三是密度瓶颈。 铜缆粗、重、占空间,当你试图在一个机架内塞进8个或更多HBM堆栈的GPU节点时,进出这些节点的线束本身就成了物理障碍。铜线的体积和散热需求,反过来限制了你能塞多少算力进去。
这三重绞索合在一起,业内给了它一个形象的名字:"铜墙铁壁"。它不是某天突然碎掉的——它正在碎,碎成一堆"还能凑合用但越来越贵、越来越热、越来越难设计"的碎片。AI算力扩张的下一公里,不是造更大的铜线,而是干脆换一种信息载体——光。
硅光为何"突然"成了最优解:CMOS兼容性才是真正的护城河
光互连本身不稀奇。光纤早就统治了跨洋海缆和数据中心间骨干网。但硅光子学的特殊之处在于——它让光第一次真正"落户"在硅芯片的领地上,而不只是停在机箱面板的模块里。
硅光技术的核心承诺:用与主流硅CMOS工艺兼容的手段,在硅衬底上制造或集成光学元件(调制器、波导、光电探测器),从而把光收发功能从一块可插拔的"外挂盒子",一步步推到交换芯片旁、最终推入与xPU共封装的基板上。它之所以能成势,根子上靠的是三张牌:
1. 材料霸权——硅。 硅是半导体业的"拉丁语",整个晶圆厂生态、设备链、设计工具、良率管理体系、供应链都围着它转。硅光不需要你重建文明——它说:我的波导用硅或氮化硅做,我的电路用标准CMOS做,我的工艺塞进已有的300mm晶圆线就行。这让规模化不是一句口号,而是有一条现成的制造高速公路可走。
2. 距离与带宽的物理不对称。 光在介质中传输的损耗与铜的电阻损耗完全不在一个量级。光纤可以多公里几乎无感,硅波导虽不如光纤,但足以在芯片到芯片、基板到基板的尺度上碾压铜线。更关键的是,光天生支持波分复用——同一根波导里不同波长的光互不干扰地并行传输——这等于在不动线宽的前提下把"车道"乘了几倍甚至十几倍。
3. 能效的生死线。 AI数据中心每省1瓦互连功耗,不只省电费,还省散热、省配电、省机房空调。硅光方案在CPO/近封装场景里,可以把SerDes驱动→PCB走线→连接器→可插拔模块这条长链中重复的"电→电"功耗开销,大幅压缩为短促的片级光路。实测数据显示,面向AI集群的硅光/CPO链路可将每比特能耗压至2~4.5 pJ量级,相比传统可插拔路径实现数倍的能效跃升。
这些不是营销PPT上的数字——它们是物理的、可测量的、且在头部云厂商验证环境中的真实趋势。也正因如此,硅光才从"光通信人的学术玩具"变成了"云厂商Capex战的必争之地"。
从机箱面板到芯片旁边:光互连的三级跃进
硅光对AI数据中心真正的冲击力,不在于它"能用光传数据",而在于它持续缩短光与计算之间的距离。这条路清清楚楚地分三步走过:
第一步:可插拔光模块(今日主力)。 800G光模块里的硅光方案渗透率已在2025-2026年越过35%~50%的临界点,在1.6T模块中更被多家机构估测占比达70%~80%。这说明硅光已经赢了"谁来做高速光收发"的战争——它便宜、可量产、可换修、生态完整。但它的物理位置仍在交换机/网卡的面板上,电信号的"最后一公里"依然长在铜PCB上。
第二步:近封装光学 / LPO(过渡加速期)。 把光学移得更近,减少PCB长走线。线性驱动可插拔光学(LPO)去掉了部分DSP功耗,是务实主义的产物——不改封装范式,但先把能效和延迟啃下来。它和NPO方案一起构成了从"可插拔"到"共封装"的软着陆垫。
第三步:共封装光学CPO(决战战场)。 将光引擎(含激光器/调制器/探测器+驱动)与交换ASIC或xPU在同一基板/封装内通过先进封装集成。电气路径从百毫米级砍到亚毫米级;功耗可削减最高约40%;带宽密度提升数倍;延迟压缩到原来的几十分之一。台积电的COUPE平台正是为这一步准备的代工服务体系,而英伟达Spectrum-X/Quantum-X光互连平台、博通Tomahawk系CPO方案,则是需求端给出的验收单。LightCounting等行业机构目前预测1.6T CPO产品将从2027年起进入大规模放量阶段,2030年前后CPO市场规模有望冲击百亿人民币乃至百亿美元量级的台阶。
这条三级路径的本质是:先让硅光在"外挂盒子"里证明自己,再把盒子拆了,把零件焊到芯片家里去。 每一步,都意味着硅光的战略地位从"组件供应商"向"基础设施定义者"抬升一级。
市场规模:百亿赛道与25%~30%的陡峭斜率
数字最能说明问题。硅光子市场不同口径(芯片级/模块级/含上下游)给出的绝对值不同,但增长斜率惊人一致:
2025年全球硅光芯片/模块相关市场规模落在约28亿~42亿美元区间,年增速25%~30%+,其中数据中心内部互连贡献约58%~62%的绝对主力份额。
800G光模块中硅光方案占比已过半,1.6T中占比逼近八成——说明硅光不是在"争夺未来",它已经是当下超高速率的主方案。
到2030年,仅硅光芯片+模块口径就指向80亿~160亿美元量级;若将CPO系统、玻璃基板/中介层/封装服务等上下游拉进来,影响的市场盘子远大于此。
但比数字更重要的是钱往哪儿流。过去十年,AI算力的资本开支大头进了GPU和HBM——"算"的那一侧。现在,"搬"的那一侧被发现同样是瓶颈且同样烧钱,于是资金开始向硅光晶圆厂产能、磷化铟激光器衬底、硅光代工平台(Tower/GlobalFoundries/台积电)、先进光耦合与CPO封装测试链倾斜。锁定产能成了关键词——有报道称,超大规模云厂商已着手锁定硅光相关晶圆厂产能档期直到2028年。这不是"备货",这是给三年后的算力扩张买保险。
产业链暗战:谁掌握"光引擎",谁捏住AI集群的咽喉
硅光崛起重塑的不是某一个零件,而是整条价值链的权力分配。
晶圆级制造端: Intel是最早押注硅光并量产硅光收发器的巨头之一(虽然后来调整了业务结构,将部分模块业务转出,聚焦核心光组件/IP),其Ayar Labs投资和相关光子I/O路线仍保持技术张力;GlobalFoundries和Tower Semiconductor提供成熟的硅光代工平台;台积电则以COUPE+SoIC把硅光纳入其3D先进封装帝国。谁掌控了可在300mm线上跑的硅光PDK和可靠工艺窗,谁就拥有"量产否决权"。
激光器与核心光器件端: 硅本身不发光——高效的片上/近片激光光源至今仍要靠磷化铟。Lumentum、Coherent(II-VI)、住友等手握这一层关键IP和产能。英伟达各20亿美元砸向Lumentum和Coherent,买的不是几颗样品,买的是未来几年高端激光组件的优先产能和不被卡脖子。
封装/组装/测试端: 把光对准、耦合、密封、可维护——这是CPO最不性感也最致命的一环。"可拆卸光连接器""ELSFP外部激光可更换架构"等思路,本质上都是在回答运维团队一个问题:光引擎坏了能不能像换模块一样修? 谁能把"光耦合良率+热稳定性+现场可维护性"做成可复制的工业流程,谁就拿到CPO时代最肥的门票。
这条链上的每一个环节,都在经历从"小批量精品店"向"千片/万片级流水线"的痛苦拉伸。也是为什么台积电那种既有工艺控制、又有封装规模、还能把设计→制造→测试捆成平台的公司,在硅光叙事里分量极重——它不是卖"光",它是卖"可量产的光"。
技术深水区:硅光的三个未竟之业
尽管势头凶猛,硅光绝不是"有了CMOS兼容性就万事大吉"。它面前还蹲着三座硬山:
① 片上/近片激光器问题。 硅不发激光,所以最理想的方案是heterogeneous integration——把InP基增益材料搬到硅上。这条路Intel走了很久,良率和热稳定性一直在进步,但基于InP的异质集成在量产成本、高温长期可靠性上仍需证明。ELSFP把激光器放回可更换前面板模块,是工程上的聪明迂回,但代价是没把激光器推到"真正零距离"。
② 耦合与对准的"微米地狱"。 光波导的芯径可以是几百纳米到一两微米,光纤模场更大但依然在微米量级。把光纤阵列精准对准并锁定到硅光芯片上,在量产环境里要做到高良率、低温漂、长寿命免维护,是整个CPO方案的"阿喀琉斯之踵"。这也是为什么玻璃基板、可拆卸耦合器、精密主动对准设备这些"非芯片"环节,反而成了兵家必争之地。
③ 标准与生态分裂风险。 UCIe解决了电侧芯粒互连标准,但光侧——波导截面、耦合方式、可插拔光接口机械规范、ELSFP定义、CPO基板材料——还在诸侯混战。英伟达的Spectrum-X、博通的Bailly、各云厂的私有方案,短期靠双边绑定跑得飞快,长期却需要一个足够开放的接口层,否则"硅光"会变成"硅光围墙花园"。
结语:硅光不是"下一个光通信",它是AI时代的第二根脊柱
回到开头的问题——为何都盯上了硅光?
因为AI的瓶颈已从"有没有足够的晶体管"平移到了"能不能把足够多的晶体管喂饱数据"。当万卡集群的训练效率被网络时延和功耗吃掉十几个百分点,当铜线在1.6T面前举手投降,当每座新数据中心的配电申请都要跟市政电网掰手腕——光就不是锦上添花的"高速接口",而是算力基础设施的第二根脊柱。
硅光子学的可怕之处(也是迷人之处)在于:它不是用一个新物理学推翻旧物理学,而是用整个半导体工业最熟悉的硅CMOS语言,把光"翻译"进来,让光从面板上的外来户,变成芯片图纸上的本机公民。这条路还要走几年才能到真正的CPO主流——可插拔和NPO/LPO还会陪跑许久——但方向已经不可逆。谁在今天把硅光从"实验室良率"推到"工厂良率"、从"单点器件"推到"系统级平台",谁就握住了下一代AI算力网的阀门。铜的时代不会一夜消失,但天花板已经肉眼可见;而光速的账,迟早是要算的。
夜雨聆风