DPU 会不会改变 AI 集群网络架构?

这里是「算力网络架构手记」北京

专注 AI 集群网络架构与性能优化
深入 GPU×RoCE×NCCL×K8s 跨层瓶颈
只拆真实问题，不写概念科普

👉 AI算力训练网络课程体系

👉 AI算力网络工程师成长营

DPU

有人把它当成“更高级的网卡”。有人把它当成“网卡上的一台小服务器”。也有人直接把它看成：

AI 集群网络的新变量。

这不是空穴来风。

NVIDIA 把 BlueField 描述成把高性能网络、Arm 计算与面向网络/存储/安全的加速能力结合在一起的平台；
Intel 把 IPU 定义为用于加速、隔离和连接基础设施任务的平台；
AMD Pensando 也把 DPU 明确定位在网络、存储和安全的数据面加速上。

也就是说，DPU 从一开始就不是“单纯跑包的 NIC”，而是冲着“把基础设施职能从主机 CPU 挪出去”来的。

所以真正值得问的问题，不是：

DPU 是不是很强？

而是：

DPU 到底会不会改变 AI 集群网络架构？

会。但不是你以为的那种“把交换机替掉”。

更准确地说：

DPU 改变的，不是“有没有网络”。而是“网络职能放在哪一层做、由谁来做、离 GPU 有多近”。

DPU 改变的，到底是什么？

一听“改变网络架构”，脑子里想的是：

拓扑会不会变
交换机会不会减少
叶脊会不会被替代
带宽是不是更大

这些当然可能发生变化。但如果你只盯这些，容易看偏。

因为 DPU 最先改变的，通常不是“拓扑形状”。

而是：

网络里的很多“中间工作”，不再默认由主机 CPU + 内核 + 通用软件路径来承担。

这件事非常关键。

NVIDIA、Intel、AMD 对 DPU/IPU 的官方表述其实都指向同一个方向：把网络虚拟化、存储、隔离、安全、基础设施服务等能力，从主机 CPU 侧挪到一个更靠近网络接口、且更可编程的处理单元上去。

一旦这件事成立，AI 集群的很多老问题，就会开始松动：

谁来处理 vSwitch / overlay / 策略
谁来承担多租户隔离
谁来处理基础设施侧的包处理逻辑
谁来保证训练流量少被“软件路径”干扰
谁来把“通用网络控制逻辑”和“AI 通信路径”隔开

所以 DPU 改变网络架构的第一层，不是“网络长什么样”。

而是：

网络里的职能分工，开始重新洗牌。

为什么 AI 集群特别容易成为 DPU 的“试验田”？

因为 AI 集群天生就不喜欢“中间层太重”。

想一想 AI 训练最怕什么：

AllReduce 被拖慢
Incast 放大
queue 抬头
tail latency 上升
GPU 在等通信
多租户或容器栈把路径搞复杂

这些问题看起来都发生在“网络里”。但很多时候，它们不是单纯的“交换机问题”。

而是：

路径太长。职能太混。控制环太多。

比如在传统主机架构里，一些基础设施处理可能会落在：

主机 CPU
Linux 网络栈
vSwitch
overlay 封装
容器网络层
安全 / 策略处理链路

这些东西对普通云业务当然有价值。

但对 AI 训练来说，问题在于：

它们不一定在关键时刻足够轻。

而 AI 训练偏偏是一个最怕“少量额外抖动”的系统。因为只要少数流更慢一点，到了 collective 这层，整个 step 都可能被拖住。

所以 DPU 为什么在 AI 集群里看起来特别有吸引力？

因为它提供了一种可能性：

把那些原本会污染训练数据路径的基础设施逻辑，尽量移出主机热路径。

这就是 DPU 和 AI 集群天然契合的地方。不是因为它听起来新。

而是因为 AI 集群特别讨厌“多余的软件干预”。

而 DPU 的官方定位，恰恰就是把网络、存储、安全等基础设施处理从主机 CPU 中 offload 出去。

DPU 最先改变的，不是“交换机”，而是“主机边界”

很多人讨论 DPU，会直接跳到网络骨干层：

leaf / spine 会不会变
交换机是不是会减少
Fabric 会不会重构

这些问题都可以讨论。但真正先发生变化的，往往是服务器边界。

为什么？

因为 DPU 首先站的位置，不是在机房中间。而是在服务器边缘。

这意味着它天然最容易改变的是：

服务器和网络的分界线
主机 CPU 和网络职能的边界
租户任务和基础设施任务的边界
训练流量和“杂质流量”的边界

这件事有多重要？

在 AI 集群里，它几乎直接决定了两类能力：

第一类：路径干净不干净

如果训练流量必须和很多基础设施逻辑共用一条重路径，那你就会更容易遇到：

抖动
额外上下文切换
软件路径不一致
额外慢尾

第二类：隔离做得好不好

AI 集群越来越不是单一训练任务独占整机房。你会遇到：

多租户
推理与训练并存
容器网络
安全与隔离需求

如果这些事都继续往主机里堆，最后很容易把训练路径“搞脏”。

而 DPU 恰恰提供了一种边界重画方式：

主机更专注于算，基础设施更专注于管。

这就是为什么说，DPU 首先改变的是“主机边界”，而不是“交换机形状”。

它会不会直接改善 NCCL / AllReduce 表现？

这个问题必须谨慎回答。

答案不是简单的“会”或者“不会”。

更准确的说法是：

DPU 不会神奇地替你解决 collective 的根问题。但它有可能减少那些本来不该落在训练热路径里的干扰。

这两句话要同时成立。

为什么说它不会神奇地解决根问题？

因为 AllReduce 慢的核心原因，通常仍然是这些：

同步流量
Incast
queue 高水位
ECN / PFC 行为
路径不对称
rank / channel 映射不合理
tail latency 放大

这些问题大部分仍然发生在：

NIC
fabric
switch egress
上层通信组织方式

DPU 不能凭空消灭 Incast。也不能让一个糟糕的拓扑自动变好。

但为什么又说它可能有帮助？

因为它可能把一部分不该干扰训练路径的东西拿走。

比如：

基础设施包处理
部分虚拟化 / overlay 逻辑
部分隔离与策略路径
一些本来落在 host CPU 的网络处理工作

这样做的直接好处不是“collective 自动更快”。

而是：

训练路径更少被杂事打扰。

这是一种“减噪”能力。不是“魔法提速”。

所以如果你问：

“DPU 会不会让 NCCL / AllReduce 更快？”

更负责任的回答是：

它更可能让路径更干净，而不是让 collective 机制本身变简单。

DPU 最可能改变的三个方向

如果要更落地一点，我认为 DPU 对 AI 集群网络架构最可能带来三类变化。

第一类：网络与基础设施控制面更下沉

过去很多基础设施逻辑都在主机里做。

未来更可能出现的情况是：

控制更靠近网口
网络策略更靠近 DPU
主机 OS 与训练任务少承担不必要的基础设施逻辑

这意味着：

AI 服务器会越来越像“算力节点 + 基础设施节点”的组合体。

这对架构的影响非常大。因为它直接改写了“主机到底负责什么”。

第二类：训练路径与基础设施路径更分离

这不是说你一定会有两张物理网。

而是说：

训练数据面
基础设施控制面
隔离 / 安全 / 虚拟化路径

会更容易被切开。

这件事一旦做好，AI 集群最怕的“热路径混脏路径”的问题会缓解很多。

你可以把它理解成：

让训练流量少跟“杂流量”抢同一条软件路径。

第三类：网络优化的重心从“纯交换机调优”变成“端到端协同”

过去大家谈网络优化，很容易只盯：

交换机 buffer
ECN 阈值
PFC 行为
spine / leaf 拓扑

这些当然还是要看。

但 DPU 一旦进入架构，优化重心会开始变化：

主机边界怎么划
DPU 承担什么
GPU / NIC / DPU / Switch 如何协同
哪些逻辑在边缘做更合适
哪些通信该在本地消化，哪些必须上网

也就是说，网络优化会越来越像一个“系统协同问题”。

而不是纯交换机问题。

那它会不会让交换机变得“不那么重要”？

会。

但不是你想象中的那种“替代”。

更准确的说法是：

DPU 会让交换机不再独自承担全部复杂性。

这句话很关键。

今天很多 AI 网络问题，最后都压在交换机上：

Incast
queue
ECN
PFC
hotspot egress
tail latency

于是交换机像一个“总背锅侠”。

但现实是，很多问题本来就不该只靠交换机兜底。

比如：

为什么所有基础设施逻辑都要压在主机再穿过网络？
为什么训练热路径要和那么多控制路径混在一起？
为什么通信组织不更早地在端点附近做约束？
为什么所有压力都要到交换机 egress 才暴露？

DPU 的引入，会让一部分复杂性在更前面被处理掉。

这不是说交换机不重要了。

而是：

交换机不用再独自承担所有中间成本。

所以未来你会感觉：

交换机还是核心
但它不再是唯一核心
AI 网络更像一个“边缘到中间协同”的系统

这就是 DPU 真正有可能带来的架构变化。

DPU 真正改变的，是 AI 网络的“重心”

DPU 不一定会让 AI 集群“换掉交换机”，但一定会让 AI 网络的重心发生变化。

这个重心变化是什么？

从：

交换机为中心
主机承担大量基础设施逻辑
训练路径和杂路径混在一起

逐渐走向：

主机更专注算
DPU 更专注基础设施
交换机更专注真正需要跨 fabric 的部分
网络优化从“调交换机”变成“端到端协同”

所以：

DPU 会不会改变 AI 集群网络架构？

答案是：

会。而且它改变的，不只是性能。更是“网络职责分布”的方式。

这才是它最值得关注的地方。

关于这类问题，其实需要一整套系统性的理解和排查方法。

如果你有兴趣，可以在后台私信：答疑

如果你也在做 AI 集群架构
欢迎关注「算力网络架构手记」
长期拆解真实算力网络问题