一、训练场景:RDMA 的 “极限性能试炼场”
(一)训练场景的核心通信特征
(二)训练场景对 RDMA 的四大刚性要求
二、推理场景:RDMA 的 “精细化服务载体”
(一)推理场景的核心通信特征
(二)推理场景对 RDMA 的四大核心诉求
三、核心差异对比:一张表厘清底层逻辑
对比维度 | 训练场景 | 推理场景 |
核心目标 | 最大化 GPU 算力利用率(MFU) | 保障首字延迟(TTFT)、提升吞吐量(QPS) |
带宽要求 | 极高(400Gbps-800Gbps 起步) | 中等(25Gbps-100Gbps 满足需求) |
延迟要求 | 微秒级(极致低延迟) | 毫秒级(用户体验级低延迟) |
丢包容忍度 | 0 容忍(绝对无损) | 低容忍(可接受轻度重传) |
扩展规模 | 万卡 - 十万卡级(线性扩展) | 弹性伸缩(随流量动态调整) |
主流网络方案 | InfiniBand、高端 RoCE | 标准 RoCE、以太网 + RDMA |
核心优化方向 | 带宽扩容、无损拥塞控制、大规模组网 | 延迟优化、并发连接调度、KV Cache 传输加速 |
夜雨聆风