OpenAI 最大训练集群上线新协议 MRC!联合英伟达、微软等六巨头, 军备竞赛杀入网络底层

导读
【导读】OpenAI 联合创始人 Greg Brockman 宣布：一项名为 MRC（Multipath Reliable Connection）的全新开放网络协议，已部署在 OpenAI 最大训练集群的生产环境中。参与方包括微软、英伟达、AMD、Broadcom、Intel，目标直指大规模 AI 训练中最隐蔽也最致命的瓶颈——网络。

六大巨头，一个协议

2026 年 5 月 5 日，OpenAI 联合创始人 Greg Brockman 在 X 上发了一条帖子：

"Multipath Reliable Connection (MRC): a new open networking protocol for large AI training clusters, deployed in production on our largest training clusters."

「MRC（多路径可靠连接）：一种面向大规模 AI 训练集群的全新开放网络协议，已在我们最大的训练集群上投入生产部署。」

▲ Greg Brockman 在 X 上宣布 MRC 已部署到 OpenAI 最大训练集群，6.4 万次查看

帖子只有两行，但信息密度极高。

第一，这是一个全新协议，专门为 AI 训练集群设计。第二，参与方阵容豪华——OpenAI、微软、英伟达、AMD、Broadcom、Intel，覆盖了从云平台到 GPU、网卡、交换芯片的完整硬件栈。第三，已经进了生产环境，跑在 OpenAI 目前最大的训练集群上。

这件事的指向很明确：AI 算力竞争，已经从"谁的 GPU 多"推进到"谁的网络撑得住"。

GPU 越多，网络越容易崩

普通读者对 AI 训练的印象往往停留在"堆 GPU"。十万张卡、几十万张卡，数字越大似乎就越强。

但真实的训练过程远比这复杂。大模型训练是一个高度同步的分布式任务——每一步梯度更新，都需要成千上万张 GPU 之间交换海量数据。这个交换过程走的就是数据中心网络。

规模越大，网络越脆弱。

当几万张 GPU 同时往网络里灌流量，通信模式高度同步，任何一条链路的拥塞、丢包或延迟抖动，都会变成"木桶效应"——最慢的那条路径，决定了整个训练任务的速度。其他 GPU 全在等它。

Data Center Knowledge 在报道中直接指出：GPU 集群规模越大，网络造成的训练停顿就越贵。每一秒的等待，都是算力和电力在空转。

▲ Data Center Knowledge：OpenAI 的新网络协议瞄准 AI 训练中的网络瓶颈

说白了：GPU 最贵的时刻，就是在等网络。

MRC 做了什么：多路径 + 可靠传输

MRC 的全称是 Multipath Reliable Connection，中文可以理解为"多路径可靠连接"。

它的核心思路，打个比方：把原来走单车道的高速公路，变成多车道同时跑，每条车道都有独立的纠错和恢复机制。

传统数据中心网络（尤其是 RoCEv2 协议）在 AI 训练场景下有个痛点：数据包走固定路径，一旦这条路径拥塞或出故障，整个连接就被拖住。MRC 在 RoCEv2 基础上做了增强，允许一个连接的数据包分散到多条网络路径上传输（packet spraying），接收端再可靠地重新排序和组装（out-of-order data placement）。

▲ Broadcom 官方博客：Enabling AI Networking @ Scale with Multi-path Reliable Connections (MRC)

Broadcom 的技术博客列出了 MRC 的几个关键机制：

Packet spraying
：把数据包分散到所有可用路径上，避免单路径过载
Out-of-order data placement
：接收端允许乱序到达的数据包直接放到正确内存位置，减少重排开销
Selective ACK/NACK
：精确反馈哪些包收到了、哪些没收到，避免大面积盲重传
Packet trimming
：遇到拥塞时裁剪数据包并转发头部，通知发送端做拥塞控制
SRv6 micro-segments
：利用 IPv6 段路由做精细的路径控制
多平面网络拓扑
：让整个网络的行为接近一台巨大的无阻塞交换机

▲ Broadcom 博客详解 MRC 技术架构：多路径调度、选择性确认、包裁剪协同工作

这些机制共同指向一个目标：让 AI 训练集群的网络吞吐更高、延迟更稳、故障恢复更快。GPU 不再因为某条网络路径的临时拥塞而集体空转。

为什么需要六家公司一起干

一个值得注意的细节：MRC 的参与方横跨了整个数据中心硬件栈。

OpenAI
：训练集群的使用者和需求方
微软
：Azure 云基础设施提供者
英伟达
：GPU 和 DPU
AMD
：网卡（Pensando Pollara 400 AI NIC / Vulcano 800G AI NIC）
Broadcom
：交换芯片和网络 ASIC
Intel
：CPU 和网络组件

当训练规模推到极致，没有任何一家公司能独立解决网络问题。GPU 厂商管不了交换芯片的拥塞控制，交换芯片厂商管不了网卡的传输协议，云厂商管不了硬件固件的实现细节。要让 MRC 跑起来，从网卡固件到交换芯片到网络拓扑到上层软件栈，每一层都得改。

▲ AMD 官方博客：从创新到部署，AMD 用 MRC 推进大规模 AI 网络

AMD 在博客中强调了 MRC 与自家 Pensando 系列 AI NIC 的结合。Broadcom 则更关注交换芯片和 RoCEv2 增强层面。角度不同，但指向同一个判断：AI 训练的基础设施竞争，已经从芯片采购延伸到网络协议和数据中心架构。

开放协议：贡献给 OCP，走生态路线

还有一个关键动作：MRC 被贡献给了 Open Compute Project（OCP）。

Broadcom 和 AMD 的博客都提到了这一点。OCP 是 Facebook 在 2011 年发起的开放硬件项目，目标是让数据中心基础设施的设计和规范公开共享。把 MRC 贡献给 OCP，意味着这个协议不会被锁在某一家公司的生态里。任何数据中心运营商、云厂商、硬件厂商，都可以基于开放规范来实现和部署。

这个选择背后有现实考量。AI 训练集群的网络栈涉及大量厂商的硬件和软件，如果协议是私有的，推广成本极高。开放化反而能加速生态适配，让 MRC 有机会成为 AI 数据中心网络的通用底座。

算力竞赛的新战场

过去几年，AI 行业的军备竞赛集中在三个维度：模型架构、训练数据、GPU 数量。但当头部实验室都在冲击十万卡甚至更大规模的集群时，一个新的约束条件浮出水面——网络。

GPU 的标称算力再高，如果网络喂不饱、传不动、堵得住，实际训练效率就上不去。MRC 瞄准的正是这个缺口。

更值得关注的是参与方的组成。OpenAI、微软、英伟达、AMD、Broadcom、Intel——这六家公司分别掌握着 AI 训练链条上的不同环节。它们在 MRC 上的协作表明，最前沿的 AI 训练越来越像一个跨公司、跨硬件层级的工程联盟。单打独斗的时代正在结束。

AI 行业下一轮竞争的重心，正在从 GPU 采购数量转向谁能把 GPU、网卡、交换芯片、网络协议和数据中心架构拧成一个高效运转的整体。

MRC 是这场基础设施竞赛的最新一步。它已经在 OpenAI 最大的训练集群上跑起来了。

— END —