
当地时间5月5日,美国OpenAI公司宣布,与AMD、博通、英特尔、微软及英伟达五家芯片与云厂商巨头共同推出名为“多路径可靠连接”(Multipath Reliable Connection,简称MRC)的全新开放网络协议,并通过开放计算项目(OCP)向全行业开放。
为何需要“重新设计网络”
OpenAI在官方博客中指出,每周已有超过9亿人使用ChatGPT,其系统正成为人工智能的核心基础设施。在训练大型AI模型时,单个步骤可能涉及数百万次数据传输,一次传输延迟就可能影响整个训练任务,甚至导致GPU闲置。网络拥塞、链路故障和设备故障是造成延迟和抖动的最常见原因。
随着集群规模不断扩大,这些问题愈发频繁且难以解决。为实现“星际之门”(Stargate)超级计算机的宏大规模,OpenAI面临两大关键网络挑战:一是尽可能减少网络拥塞的可能性;二是最大限度降低网络故障对训练任务的影响。在超大规模下,即使最好的网络也会持续存在链路和交换机故障。以往,单个故障往往导致训练任务崩溃或停滞数秒,消耗大量GPU周期和时间。
MRC协议:三大创新设计
为解决上述难题,OpenAI与五家合作伙伴历经两年研发,推出了MRC协议。该协议内置于最新的800Gb/s网络接口中,允许将单个传输分散到数百条路径上,在微秒级时间内绕过故障,并运行更简单的网络控制平面。MRC的设计主要体现在三个方面:
第一,多平面网络架构。MRC不再将每个网络接口视为一条800Gb/s的链路,而是将其拆分成多条较小的链路。例如,一个接口可连接到八个不同的交换机,构建八个独立的并行网络平面,每个平面运行速度为100Gb/s。这一改变使原本只能以800Gb/s连接64个端口的交换机,如今能以100Gb/s连接512个端口,仅需两层交换机即可构建连接约13.1万个GPU的网络,而传统设计需要三到四层。最终网络成本更低、功耗更低,路径多样性更高。
第二,自适应数据包喷淋技术。传统网络协议要求每次传输遵循单一路径,容易造成拥塞。MRC从根本上改变这一模式:将来自单个传输的数据包分散到网络中数百条路径上,覆盖所有不同平面。数据包可能乱序到达,但由于所有MRC数据包均包含最终内存地址,目标端可在数据包到达时直接写入内存。通过将流量分散到多条路径,MRC有效避免网络热点,防止某些事务处理时间远长于其他事务。若检测到某条路径拥塞,MRC会将其替换为另一条路径;若发生丢包,MRC立即停止使用该路径并重发数据包。交换机在拥塞时会采用“数据包修剪”技术,只转发头部以触发重传请求,减少误判。
第三,SRv6源路由替代动态路由。传统交换机运行复杂的动态路由协议(如BGP),容易出现不易察觉的故障。MRC采取更为彻底的方法:禁用动态路由,改用IPv6分段路由(SRv6)。发送方可直接指定每个数据包在网络中的完整传输路径,将交换机标识符序列嵌入数据包目标地址。交换机仅需按照预先配置的静态路由表盲目转发,无需实时计算路径。如果某条路径发生故障,MRC会停止使用该路径,交换机无需重新计算路由。
实际部署效果:故障影响微乎其微
MRC已部署在OpenAI所有用于训练前沿模型的大型NVIDIA GB200超级计算机上,包括位于德克萨斯州阿比林的Oracle云基础设施站点以及微软的Fairwater超级计算机,并已用于训练多个OpenAI模型。
OpenAI披露的生产数据显示,其训练网络拥有数百万条链路。在训练过程中,零层交换机和一级交换机之间每分钟都会发生多次链路抖动,但MRC确保这些抖动对同步预训练任务没有造成任何可衡量的影响。影响之小,甚至不需要优先修复这些链路。
在最近一次针对ChatGPT和Codex的前沿模型训练中,团队不得不重启四台一级交换机。以往这需要运维团队极其小心以免中断训练,而在MRC下甚至无需与训练团队协调。链路修复同样可以在不中断服务的情况下进行——如果链路运行良好,MRC会使用它;如果运行不佳,MRC会避免使用它,直至修复完成。
若GPU网络接口与交换机之间的链路发生故障,传统情况下训练任务会失败。有了MRC,任务可继续运行。若一个8端口网络接口丢失一个端口,最大速率仅降低八分之一,MRC会立即重新计算路径避开故障链路。大多数故障链路在一分钟内恢复,MRC随即重新启用。
三大关键优势与开放共享
OpenAI总结,MRC为其扩展超级计算机带来三大关键优势:
第一,仅使用两层以太网交换机,即可为超过10万个GPU的超级计算机构建高速网络,提供足够冗余应对故障,同时功耗低于同等的三层或四层单层网络。
第二,自适应数据包喷淋实现了良好的负载均衡,网络核心几乎无拥塞,显著降低了同步训练期间不同数据流之间的吞吐量波动,多个作业共享集群时也不会相互影响性能。
第三,使用SRv6源路由快速绕过故障,运行简单的静态网络控制平面,消除了动态路由可能出现的各类故障行为。
OpenAI表示,MRC显著提升了训练前沿模型的能力,确保网络能够跟上人工智能研究的发展步伐。目前,MRC规范已作为开放计算项目(OCP)的贡献向全行业开放使用和开发。OpenAI还与他人合著了题为《使用MRC和SRv6的弹性AI超级计算机网络》的论文,详细介绍了相关经验。
夜雨聆风