【导读】OpenAI 联合创始人 Greg Brockman 宣布:一项名为 MRC(Multipath Reliable Connection)的全新开放网络协议,已部署在 OpenAI 最大训练集群的生产环境中。参与方包括微软、英伟达、AMD、Broadcom、Intel,目标直指大规模 AI 训练中最隐蔽也最致命的瓶颈——网络。
六大巨头,一个协议
2026 年 5 月 5 日,OpenAI 联合创始人 Greg Brockman 在 X 上发了一条帖子:
"Multipath Reliable Connection (MRC): a new open networking protocol for large AI training clusters, deployed in production on our largest training clusters."
「MRC(多路径可靠连接):一种面向大规模 AI 训练集群的全新开放网络协议,已在我们最大的训练集群上投入生产部署。」

▲ Greg Brockman 在 X 上宣布 MRC 已部署到 OpenAI 最大训练集群,6.4 万次查看
帖子只有两行,但信息密度极高。
第一,这是一个全新协议,专门为 AI 训练集群设计。第二,参与方阵容豪华——OpenAI、微软、英伟达、AMD、Broadcom、Intel,覆盖了从云平台到 GPU、网卡、交换芯片的完整硬件栈。第三,已经进了生产环境,跑在 OpenAI 目前最大的训练集群上。
这件事的指向很明确:AI 算力竞争,已经从"谁的 GPU 多"推进到"谁的网络撑得住"。
GPU 越多,网络越容易崩
普通读者对 AI 训练的印象往往停留在"堆 GPU"。十万张卡、几十万张卡,数字越大似乎就越强。
但真实的训练过程远比这复杂。大模型训练是一个高度同步的分布式任务——每一步梯度更新,都需要成千上万张 GPU 之间交换海量数据。这个交换过程走的就是数据中心网络。
规模越大,网络越脆弱。
当几万张 GPU 同时往网络里灌流量,通信模式高度同步,任何一条链路的拥塞、丢包或延迟抖动,都会变成"木桶效应"——最慢的那条路径,决定了整个训练任务的速度。其他 GPU 全在等它。
Data Center Knowledge 在报道中直接指出:GPU 集群规模越大,网络造成的训练停顿就越贵。每一秒的等待,都是算力和电力在空转。

▲ Data Center Knowledge:OpenAI 的新网络协议瞄准 AI 训练中的网络瓶颈
说白了:GPU 最贵的时刻,就是在等网络。
MRC 做了什么:多路径 + 可靠传输
MRC 的全称是 Multipath Reliable Connection,中文可以理解为"多路径可靠连接"。
它的核心思路,打个比方:把原来走单车道的高速公路,变成多车道同时跑,每条车道都有独立的纠错和恢复机制。
传统数据中心网络(尤其是 RoCEv2 协议)在 AI 训练场景下有个痛点:数据包走固定路径,一旦这条路径拥塞或出故障,整个连接就被拖住。MRC 在 RoCEv2 基础上做了增强,允许一个连接的数据包分散到多条网络路径上传输(packet spraying),接收端再可靠地重新排序和组装(out-of-order data placement)。

▲ Broadcom 官方博客:Enabling AI Networking @ Scale with Multi-path Reliable Connections (MRC)
Broadcom 的技术博客列出了 MRC 的几个关键机制:
- Packet spraying
:把数据包分散到所有可用路径上,避免单路径过载 - Out-of-order data placement
:接收端允许乱序到达的数据包直接放到正确内存位置,减少重排开销 - Selective ACK/NACK
:精确反馈哪些包收到了、哪些没收到,避免大面积盲重传 - Packet trimming
:遇到拥塞时裁剪数据包并转发头部,通知发送端做拥塞控制 - SRv6 micro-segments
:利用 IPv6 段路由做精细的路径控制 - 多平面网络拓扑
:让整个网络的行为接近一台巨大的无阻塞交换机

▲ Broadcom 博客详解 MRC 技术架构:多路径调度、选择性确认、包裁剪协同工作
这些机制共同指向一个目标:让 AI 训练集群的网络吞吐更高、延迟更稳、故障恢复更快。GPU 不再因为某条网络路径的临时拥塞而集体空转。
为什么需要六家公司一起干
一个值得注意的细节:MRC 的参与方横跨了整个数据中心硬件栈。
- OpenAI
:训练集群的使用者和需求方 - 微软
:Azure 云基础设施提供者 - 英伟达
:GPU 和 DPU - AMD
:网卡(Pensando Pollara 400 AI NIC / Vulcano 800G AI NIC) - Broadcom
:交换芯片和网络 ASIC - Intel
:CPU 和网络组件
当训练规模推到极致,没有任何一家公司能独立解决网络问题。GPU 厂商管不了交换芯片的拥塞控制,交换芯片厂商管不了网卡的传输协议,云厂商管不了硬件固件的实现细节。要让 MRC 跑起来,从网卡固件到交换芯片到网络拓扑到上层软件栈,每一层都得改。

▲ AMD 官方博客:从创新到部署,AMD 用 MRC 推进大规模 AI 网络
AMD 在博客中强调了 MRC 与自家 Pensando 系列 AI NIC 的结合。Broadcom 则更关注交换芯片和 RoCEv2 增强层面。角度不同,但指向同一个判断:AI 训练的基础设施竞争,已经从芯片采购延伸到网络协议和数据中心架构。
开放协议:贡献给 OCP,走生态路线
还有一个关键动作:MRC 被贡献给了 Open Compute Project(OCP)。
Broadcom 和 AMD 的博客都提到了这一点。OCP 是 Facebook 在 2011 年发起的开放硬件项目,目标是让数据中心基础设施的设计和规范公开共享。把 MRC 贡献给 OCP,意味着这个协议不会被锁在某一家公司的生态里。任何数据中心运营商、云厂商、硬件厂商,都可以基于开放规范来实现和部署。
这个选择背后有现实考量。AI 训练集群的网络栈涉及大量厂商的硬件和软件,如果协议是私有的,推广成本极高。开放化反而能加速生态适配,让 MRC 有机会成为 AI 数据中心网络的通用底座。
算力竞赛的新战场
过去几年,AI 行业的军备竞赛集中在三个维度:模型架构、训练数据、GPU 数量。但当头部实验室都在冲击十万卡甚至更大规模的集群时,一个新的约束条件浮出水面——网络。
GPU 的标称算力再高,如果网络喂不饱、传不动、堵得住,实际训练效率就上不去。MRC 瞄准的正是这个缺口。
更值得关注的是参与方的组成。OpenAI、微软、英伟达、AMD、Broadcom、Intel——这六家公司分别掌握着 AI 训练链条上的不同环节。它们在 MRC 上的协作表明,最前沿的 AI 训练越来越像一个跨公司、跨硬件层级的工程联盟。单打独斗的时代正在结束。
AI 行业下一轮竞争的重心,正在从 GPU 采购数量转向谁能把 GPU、网卡、交换芯片、网络协议和数据中心架构拧成一个高效运转的整体。
MRC 是这场基础设施竞赛的最新一步。它已经在 OpenAI 最大的训练集群上跑起来了。
— END —
夜雨聆风