互连协议越多,AI 芯片越焦虑

AI 服务器这两年的热词，明面上是 GPU、HBM、先进封装和大模型。但把系统图摊开看，另一个问题会很快冒出来：算力早就不是单颗芯片的故事了，真正难缠的是芯片之间怎么说话。

Semiconductor Engineering 最近写到一个很现实的现象：互连选项越来越多，架构师反而更难拍板。PCIe、CXL、UCIe、UALink、Ultra Ethernet、NVLink、BoW、光互连，每个名字背后都有自己的距离、带宽、时延、生态和商业立场。它们不是简单的替代关系，更像是一堆分布在不同楼层的电梯、楼梯和通道。你不能只问“哪个最快”，还得问“我要从哪儿到哪儿”。

这对 AI 基础设施尤其要命。训练集群要做参数同步，推理系统要在吞吐、延迟和成本之间来回拉扯，内存扩展又把 CPU、GPU、DPU、加速器和存储搅在一起。互连选错了，芯片再强也可能被系统拖住。

问题不是协议太少，而是边界太多

以前谈互连，边界相对清楚。板卡上是 PCIe，服务器之间是以太网或 InfiniBand，封装内更多是厂商自家的设计。工程团队当然也要算带宽、时延和成本，但问题大体能归类。

现在不一样。

Chiplet 把 die-to-die 互连推到台前，UCIe 想把封装内小芯片连接做成开放生态。CXL 在 PCIe 基础上加上缓存一致性和内存扩展语义，让“内存池化”不再只是 PPT 里的漂亮词。UALink 盯着 AI 加速器之间的 scale-up 互连，想给 GPU 之外的生态一个开放选择。Ultra Ethernet 则把以太网往 AI/HPC 集群需求上拽，重点处理拥塞、时延和可预测性。

每条路都有道理。但道理越多，选择越难。

互连麻烦就麻烦在，它永远夹在一堆约束中间。封装内距离短，可以追求极高带宽和低功耗，但封装成本、热设计和良率压力会马上跟上来。板级互连生态成熟，可带宽和一致性语义有限。机架内互连要处理拓扑、散热、维护和线缆。跨机架网络还要在开放生态、规模扩展和尾延迟之间做取舍。

所以今天的系统架构师面对的不是一道选择题，而是一组分层题：哪一段距离用什么协议，哪类通信需要一致性，哪些链路值得为低延迟付钱，哪些地方接受通用网络就够了。

AI 把互连从配角推到了台前

如果只是传统服务器负载，互连当然重要，但经常还能放到平台设计后半段处理。AI 把这个顺序改了。

大模型训练里的 AllReduce、参数同步、梯度交换，对芯片间通信非常敏感。推理看上去更分散，可一旦进入多卡推理、长上下文、MoE 路由和 KV Cache 管理，数据移动照样会吃掉大量系统预算。更麻烦的是，AI 工作负载不稳定。模型结构、并行策略、批处理大小、显存容量、延迟目标一变，互连压力也跟着变。

这也是为什么 NVIDIA 的 NVLink/NVSwitch 在 AI 系统里这么强。它不是单卖一条链路，而是和 GPU、拓扑、软件栈、通信库绑在一起。性能来自硬件，也来自闭环生态。开放标准要追这种方案，不能只盯着物理层带宽，还得补软件、验证和系统集成。

UALink、Ultra Ethernet 的出现，说白了就是行业对这种闭环压力的回应。云厂商、芯片公司、系统厂商都不希望 AI 加速器之间的高速互连完全被单一厂商锁住。开放协议能降低生态门槛，也给非 NVIDIA 加速器一个更统一的 scale-up 或 scale-out 语言。

但开放也有代价。标准制定慢，互操作验证更慢，第一代产品还要经历性能、成熟度和工具链磨合。私有方案快，开放方案广，这个矛盾短期内不会消失。

这类复杂场景，恰好也是 AI Agent 可以介入的地方。IC Agent Hub 面向芯片研发场景做 Agent 技能管理和 Benchmark 质量验证，先做安全扫描、依赖校验和物理机运行验证，再让工程团队使用技能，减少“工具能跑”和“工程可用”之间的落差。

CXL 和 UCIe 解决的不是同一个问题

很多讨论喜欢把互连协议放在同一张表里比带宽。这种表当然有用，但也很容易把人带偏。

UCIe 关心的是封装内或封装附近的 chiplet 互连。它要回答的问题是：不同来源的小芯片能不能在同一个封装里高效通信，能不能形成更开放的 chiplet 供应链。它背后对应的是先进封装、IP 复用、异构集成和制造分工。

CXL 关心的是主机、加速器和内存设备之间的一致性和内存扩展。它要回答的问题是：服务器里的内存资源能不能更灵活地被 CPU、加速器或内存扩展设备使用。它背后对应的是内存墙、资源池化和数据中心平台架构。

这两者都重要，但不在同一层。一个更靠近封装和芯片组合，一个更靠近系统内存语义。硬把它们放在一起问“谁更好”，意义不大。更现实的画面是：未来 AI 系统可能同时需要它们。封装内用 UCIe 连接 chiplet，服务器内用 PCIe/CXL 做设备和内存扩展，再用更高速的加速器互连连接多个 AI 计算单元。

复杂性不是来自某一个协议，而是来自协议堆叠。

光互连不是魔法答案

当电互连接近功耗和距离极限时，光互连自然会被反复提起。共封装光学、光 I/O、硅光，都被寄予厚望。对 AI 集群来说，光互连的吸引力很直接：距离更长、带宽密度更高、能效潜力更好。

但光互连不是按下按钮就能替代铜线。它牵涉激光源、封装、热管理、可靠性、测试、可维护性和供应链成熟度。放在数据中心里，技术好不好只是第一层。能不能大规模部署，出了问题能不能维护，成本曲线能不能被客户接受，这些才决定它能走多快。

更现实的路径不是“光取代电”，而是“电和光重新分工”。短距离、高密度、封装内连接仍然会优先使用电互连；距离拉长、带宽密度继续上升时，光会慢慢进入更靠近计算节点的位置。这个过程可能很快，也可能被成本和可靠性拖慢。

谁会受益，谁会被挤压

互连复杂化会让几类公司受益。

第一类是能给完整系统方案的厂商。单点芯片性能越来越难单独说明问题，客户更关心整机吞吐、集群效率、软件栈成熟度和部署风险。能把芯片、互连、拓扑、通信库和运维工具一起交付的厂商，会更占便宜。

第二类是掌握先进封装和高速 SerDes 能力的公司。互连越重要，封装、电源完整性、信号完整性和测试验证就越不能只是后端支持。它们会更早进入架构决策。

第三类是验证和工具链供应商。协议越多，互操作越复杂，系统级仿真、性能建模、协议验证和故障定位越值钱。AI 芯片公司不只要证明自己的算力，还要证明自己能在真实系统里稳定工作。

被挤压的，是只提供单点加速器、但缺少系统生态的玩家。AI 芯片创业公司尤其会有感觉：芯片指标可以在发布会上很好看，但一进客户机房，互连、软件、驱动、通信库、部署工具都会变成硬门槛。

中国芯片公司的特殊难题

对国内芯片公司来说，互连问题还有一层更现实的约束：不能只看最先进方案，还要看可获得性、国产化替代、数据安全和客户部署习惯。

AI 加速器如果要进入国内数据中心，往往要面对复杂的软件栈迁移和异构硬件环境。客户不会只问峰值算力，也会问能不能接入现有服务器，能不能和既有网络打通，能不能私有化部署，出了问题谁来定位。互连协议越多，这些问题越难靠单个工程师经验解决。

这也是为什么 AI+EDA、AI+芯片研发工具不能只停留在代码生成层面。真正有价值的工具，应该能理解设计规则、工具链依赖、系统拓扑和验证流程，帮助工程团队把分散的协议、脚本、日志和经验组织起来。

中科麒芯围绕国内芯片公司研发流程做 AI Agent 产品，智语芯理解半导体行业知识，FlowBuilder 面向 Design Flow 协同，IC 研发知识库沉淀企业规则，IC Agent Hub 负责 Agent 技能的发现、安装和订阅。更重要的是，这些组件支持私有化部署，核心设计数据可以留在企业内部。

写在最后

互连选项越来越多，看起来是技术繁荣，往深了看其实是系统焦虑。

AI 基础设施已经走过了“多买几张卡就能解决问题”的阶段。下一轮竞争会更像系统工程：谁能在封装、板卡、机架、集群、软件栈之间找到成本和性能的平衡点，谁才有机会把算力真正释放出来。

所以，别再把互连当成 I/O 附属品。它正在变成 AI 芯片产业的分水岭。

作者：麒芯

参考资料：Semiconductor Engineering、UCIe Consortium、UALink Consortium、Ultra Ethernet Consortium、PCI-SIG、CXL Consortium、NVIDIA NVLink 公开资料。

本文为行业分析，不构成投资建议。

💬 加入 IC Agent 技术交流群

群里聚集了芯片设计工程师、IT/CAD 负责人和 AI+EDA 从业者，聊技术、聊工具、聊行业趋势。

👉 关注回复「加群」，拉你进群一起聊

👉 关注回复「合作」，如果你在做 AI+ 芯片/EDA 相关，欢迎来聊

后续会持续更新这个系列，关注不迷路。