AI 服务器这两年的热词,明面上是 GPU、HBM、先进封装和大模型。但把系统图摊开看,另一个问题会很快冒出来:算力早就不是单颗芯片的故事了,真正难缠的是芯片之间怎么说话。
Semiconductor Engineering 最近写到一个很现实的现象:互连选项越来越多,架构师反而更难拍板。PCIe、CXL、UCIe、UALink、Ultra Ethernet、NVLink、BoW、光互连,每个名字背后都有自己的距离、带宽、时延、生态和商业立场。它们不是简单的替代关系,更像是一堆分布在不同楼层的电梯、楼梯和通道。你不能只问“哪个最快”,还得问“我要从哪儿到哪儿”。
这对 AI 基础设施尤其要命。训练集群要做参数同步,推理系统要在吞吐、延迟和成本之间来回拉扯,内存扩展又把 CPU、GPU、DPU、加速器和存储搅在一起。互连选错了,芯片再强也可能被系统拖住。
问题不是协议太少,而是边界太多
以前谈互连,边界相对清楚。板卡上是 PCIe,服务器之间是以太网或 InfiniBand,封装内更多是厂商自家的设计。工程团队当然也要算带宽、时延和成本,但问题大体能归类。
现在不一样。
Chiplet 把 die-to-die 互连推到台前,UCIe 想把封装内小芯片连接做成开放生态。CXL 在 PCIe 基础上加上缓存一致性和内存扩展语义,让“内存池化”不再只是 PPT 里的漂亮词。UALink 盯着 AI 加速器之间的 scale-up 互连,想给 GPU 之外的生态一个开放选择。Ultra Ethernet 则把以太网往 AI/HPC 集群需求上拽,重点处理拥塞、时延和可预测性。
每条路都有道理。但道理越多,选择越难。
互连麻烦就麻烦在,它永远夹在一堆约束中间。封装内距离短,可以追求极高带宽和低功耗,但封装成本、热设计和良率压力会马上跟上来。板级互连生态成熟,可带宽和一致性语义有限。机架内互连要处理拓扑、散热、维护和线缆。跨机架网络还要在开放生态、规模扩展和尾延迟之间做取舍。
所以今天的系统架构师面对的不是一道选择题,而是一组分层题:哪一段距离用什么协议,哪类通信需要一致性,哪些链路值得为低延迟付钱,哪些地方接受通用网络就够了。
AI 把互连从配角推到了台前
如果只是传统服务器负载,互连当然重要,但经常还能放到平台设计后半段处理。AI 把这个顺序改了。
大模型训练里的 AllReduce、参数同步、梯度交换,对芯片间通信非常敏感。推理看上去更分散,可一旦进入多卡推理、长上下文、MoE 路由和 KV Cache 管理,数据移动照样会吃掉大量系统预算。更麻烦的是,AI 工作负载不稳定。模型结构、并行策略、批处理大小、显存容量、延迟目标一变,互连压力也跟着变。
这也是为什么 NVIDIA 的 NVLink/NVSwitch 在 AI 系统里这么强。它不是单卖一条链路,而是和 GPU、拓扑、软件栈、通信库绑在一起。性能来自硬件,也来自闭环生态。开放标准要追这种方案,不能只盯着物理层带宽,还得补软件、验证和系统集成。
UALink、Ultra Ethernet 的出现,说白了就是行业对这种闭环压力的回应。云厂商、芯片公司、系统厂商都不希望 AI 加速器之间的高速互连完全被单一厂商锁住。开放协议能降低生态门槛,也给非 NVIDIA 加速器一个更统一的 scale-up 或 scale-out 语言。
但开放也有代价。标准制定慢,互操作验证更慢,第一代产品还要经历性能、成熟度和工具链磨合。私有方案快,开放方案广,这个矛盾短期内不会消失。
这类复杂场景,恰好也是 AI Agent 可以介入的地方。IC Agent Hub 面向芯片研发场景做 Agent 技能管理和 Benchmark 质量验证,先做安全扫描、依赖校验和物理机运行验证,再让工程团队使用技能,减少“工具能跑”和“工程可用”之间的落差。
CXL 和 UCIe 解决的不是同一个问题
很多讨论喜欢把互连协议放在同一张表里比带宽。这种表当然有用,但也很容易把人带偏。
UCIe 关心的是封装内或封装附近的 chiplet 互连。它要回答的问题是:不同来源的小芯片能不能在同一个封装里高效通信,能不能形成更开放的 chiplet 供应链。它背后对应的是先进封装、IP 复用、异构集成和制造分工。
CXL 关心的是主机、加速器和内存设备之间的一致性和内存扩展。它要回答的问题是:服务器里的内存资源能不能更灵活地被 CPU、加速器或内存扩展设备使用。它背后对应的是内存墙、资源池化和数据中心平台架构。
这两者都重要,但不在同一层。一个更靠近封装和芯片组合,一个更靠近系统内存语义。硬把它们放在一起问“谁更好”,意义不大。更现实的画面是:未来 AI 系统可能同时需要它们。封装内用 UCIe 连接 chiplet,服务器内用 PCIe/CXL 做设备和内存扩展,再用更高速的加速器互连连接多个 AI 计算单元。
复杂性不是来自某一个协议,而是来自协议堆叠。
光互连不是魔法答案
当电互连接近功耗和距离极限时,光互连自然会被反复提起。共封装光学、光 I/O、硅光,都被寄予厚望。对 AI 集群来说,光互连的吸引力很直接:距离更长、带宽密度更高、能效潜力更好。
但光互连不是按下按钮就能替代铜线。它牵涉激光源、封装、热管理、可靠性、测试、可维护性和供应链成熟度。放在数据中心里,技术好不好只是第一层。能不能大规模部署,出了问题能不能维护,成本曲线能不能被客户接受,这些才决定它能走多快。
更现实的路径不是“光取代电”,而是“电和光重新分工”。短距离、高密度、封装内连接仍然会优先使用电互连;距离拉长、带宽密度继续上升时,光会慢慢进入更靠近计算节点的位置。这个过程可能很快,也可能被成本和可靠性拖慢。
谁会受益,谁会被挤压
互连复杂化会让几类公司受益。
第一类是能给完整系统方案的厂商。单点芯片性能越来越难单独说明问题,客户更关心整机吞吐、集群效率、软件栈成熟度和部署风险。能把芯片、互连、拓扑、通信库和运维工具一起交付的厂商,会更占便宜。
第二类是掌握先进封装和高速 SerDes 能力的公司。互连越重要,封装、电源完整性、信号完整性和测试验证就越不能只是后端支持。它们会更早进入架构决策。
第三类是验证和工具链供应商。协议越多,互操作越复杂,系统级仿真、性能建模、协议验证和故障定位越值钱。AI 芯片公司不只要证明自己的算力,还要证明自己能在真实系统里稳定工作。
被挤压的,是只提供单点加速器、但缺少系统生态的玩家。AI 芯片创业公司尤其会有感觉:芯片指标可以在发布会上很好看,但一进客户机房,互连、软件、驱动、通信库、部署工具都会变成硬门槛。
中国芯片公司的特殊难题
对国内芯片公司来说,互连问题还有一层更现实的约束:不能只看最先进方案,还要看可获得性、国产化替代、数据安全和客户部署习惯。
AI 加速器如果要进入国内数据中心,往往要面对复杂的软件栈迁移和异构硬件环境。客户不会只问峰值算力,也会问能不能接入现有服务器,能不能和既有网络打通,能不能私有化部署,出了问题谁来定位。互连协议越多,这些问题越难靠单个工程师经验解决。
这也是为什么 AI+EDA、AI+芯片研发工具不能只停留在代码生成层面。真正有价值的工具,应该能理解设计规则、工具链依赖、系统拓扑和验证流程,帮助工程团队把分散的协议、脚本、日志和经验组织起来。
中科麒芯围绕国内芯片公司研发流程做 AI Agent 产品,智语芯理解半导体行业知识,FlowBuilder 面向 Design Flow 协同,IC 研发知识库沉淀企业规则,IC Agent Hub 负责 Agent 技能的发现、安装和订阅。更重要的是,这些组件支持私有化部署,核心设计数据可以留在企业内部。
写在最后
互连选项越来越多,看起来是技术繁荣,往深了看其实是系统焦虑。
AI 基础设施已经走过了“多买几张卡就能解决问题”的阶段。下一轮竞争会更像系统工程:谁能在封装、板卡、机架、集群、软件栈之间找到成本和性能的平衡点,谁才有机会把算力真正释放出来。
所以,别再把互连当成 I/O 附属品。它正在变成 AI 芯片产业的分水岭。
作者:麒芯
参考资料:Semiconductor Engineering、UCIe Consortium、UALink Consortium、Ultra Ethernet Consortium、PCI-SIG、CXL Consortium、NVIDIA NVLink 公开资料。
本文为行业分析,不构成投资建议。
💬 加入 IC Agent 技术交流群
群里聚集了芯片设计工程师、IT/CAD 负责人和 AI+EDA 从业者,聊技术、聊工具、聊行业趋势。

👉 关注回复「加群」,拉你进群一起聊
👉 关注回复「合作」,如果你在做 AI+ 芯片/EDA 相关,欢迎来聊
后续会持续更新这个系列,关注不迷路。
夜雨聆风