AI 网络互连硬件第四篇:AI Ethernet 的工程门槛,RoCE、拥塞控制、交换 ASIC 与系统全解

目 录
-
1、先把问题说准:AI Ethernet 不是便宜版 InfiniBand -
2、为什么工程化门槛会成为第四层利润池 -
3、连接白皮书补上的,是 AI Ethernet 的物理工程边界 -
4、RoCEv2 是门票,但不是护城河 -
5、PFC、ECN、DCQCN:无损以太网不是口号 -
6、Packet spraying 与 adaptive routing:开放网络要处理“乱”和“堵” -
7、交换 ASIC:Tomahawk、Jericho、Spectrum、Silicon One、Teralynx 分工不同 -
8、系统软件:AI Ethernet 的护城河不在 CLI,而在稳定扩容 -
9、白盒不是低端代工:Celestica 与 Accton 证明交付层也有门槛 -
10、客户路线:不是所有云厂都会用同一张网络图 -
11、财务验证:这篇是工程分析,但不能脱离订单和利润表 -
12、公司排序:先按控制层级,不按热度排序 -
13、证伪清单:什么时候说明 AI Ethernet 工程化逻辑不成立 -
14、季度跟踪表:只看订单不够,要看工程指标和财务指标一起改善 -
15、最终判断:开放网络的赢家,是能把复杂度做成平台的人
AI 网络互连硬件第四篇:AI Ethernet 的工程门槛,RoCE、拥塞控制、交换 ASIC 与系统软件全解
AI 网络互连硬件第一篇:1.6T/3.2T 背后的价值迁移,交换、铜互连、光互连和物理层谁最受益
英伟达、博通与 Marvell 的 AI 网络控制权:2026 英伟达闭环与博通开放网络之战
铜互连没有结束:Astera Labs、Credo 与 Marvell 高速连接芯片,2026 AI 机柜短距连接控制权全解
全文内容概括:本文的核心判断是,AI Ethernet 不是低配 InfiniBand,而是一套必须用 RoCEv2、PFC、ECN、DCQCN、VOQ、deep buffer、packet spraying、adaptive routing、NIC/DPU 卸载和系统软件共同补齐的工程化网络。InfiniBand 的优势在于成熟闭环、低延迟和训练稳定性;AI Ethernet 的优势在于开放生态、单位带宽成本、多供应商选择和云厂自研 ASIC 的架构自由。真正的分歧不是二选一,而是开放以太网能不能在万卡、十万卡乃至跨园区集群里稳定处理拥塞、乱序、长尾延迟和故障定位。
Bernstein 2026 年 5 月 97 页 AI 数据中心连接白皮书进一步补上物理层约束:CPO/NPO/LPO、铜互连、CPC、OCS、PCB/CCL/ABF 与高端材料不是独立主题,而是决定 AI Ethernet 能否从 800G 走向 1.6T、3.2T 的底层边界。投资上应把 AI Ethernet 拆成四层排序:交换 silicon 与架构控制权看 Broadcom、NVIDIA、Marvell;系统软件和客户网络平台看 Arista、Cisco;白盒工程与交付验证看 Celestica、Accton;物理连接和材料瓶颈看光引擎、外部光源、FAU、PCB/CCL、铜缆和接口芯片。
1、先把问题说准:AI Ethernet 不是便宜版 InfiniBand
市场最容易犯的错误,是把 AI Ethernet 理解成“成本更低的 InfiniBand 替代品”。这个说法只看到了采购价格,没有看到工程代价。
InfiniBand 的强项,是把低延迟、拥塞控制、网络适配器、交换机、软件栈和故障定位做成一个相对闭环的系统。对高端训练集群来说,闭环的价值不是好看,而是减少训练中断、长尾延迟和排障时间。GPU 或 XPU 越贵,网络不稳定造成的机会成本越高。
AI Ethernet 的价值也不是“低价”。它的真正价值在开放性:云厂可以混用不同交换 ASIC、不同 NIC/DPU、不同系统厂、不同光电链路和自研 ASIC/XPU。这个开放性给客户带来供应链选择、总拥有成本、软件自主权和架构迭代速度,但代价是工程复杂度显著上升。
所以这一篇要回答的问题不是“Ethernet 会不会替代 InfiniBand”,而是:开放以太网要靠哪些硬件和软件能力,才能跑出接近闭环网络的稳定性。

这张表决定本文的写法。前三篇已经分别回答了价值迁移、架构控制权和短距连接芯片;第四篇必须把焦点收回“工程能不能跑起来”。否则 AI Ethernet 只是一个开放网络口号,不能变成投资框架。
2、为什么工程化门槛会成为第四层利润池
AI 集群规模扩大后,网络的成本不是线性增加。Bernstein 把一个关键点讲得很清楚:随着 xPU 数量增加,网络层级、交换机数量、收发器数量和上层 fabric 复杂度都会放大。两层 fat-tree 到三层 fat-tree,不只是多买一点交换机,而是 switch-to-xPU、transceiver-to-xPU 和网络总带宽比例一起提高。
结果很直接:AI 网络越往大规模走,工程化门槛越会变成利润池。
如果只买交换机端口,价值会被白盒和竞价压缩;如果能解决拥塞控制、无损传输、尾延迟、遥测、网络自动化、故障定位和客户认证,价值就会从硬件 BOM 上移到系统级控制权。Arista 的 EOS、Cisco 的 Silicon One 与 Acacia、NVIDIA 的 Spectrum-X 与 BlueField、Broadcom 的 Tomahawk/Jericho 加客户定制网络,都是在争这层价值。

这里最重要的投资结论是:AI Ethernet 的价值不会平均分给所有以太网公司。它会向三个位置集中:交换 silicon、系统软件、复杂系统交付。没有 silicon,无法定义低延迟和队列能力;没有软件,客户无法稳定运营;没有交付能力,订单无法变成收入。

3、连接白皮书补上的,是 AI Ethernet 的物理工程边界
只讲 RoCE、交换 ASIC 和系统软件,还不够完整。Bernstein 2026 年 5 月的 AI 数据中心连接白皮书把问题往下压了一层:AI 数据中心正在从 compute-bound 走向 connectivity-bound,连接瓶颈同时发生在 scale-up、scale-out、机柜内短距、机柜间光链路、交换机板级设计和上游材料。
这份白皮书对第四篇最大的补充,不是简单告诉读者 CPO 很重要,而是提醒 AI Ethernet 的工程边界不止在交换芯片。前面板光模块、LPO/NPO 过渡、CPO 可靠性、DAC/AEC 铜缆长度、CPC、224G/448G SerDes、M8/M9 CCL、T-glass、HVLP 铜箔和 ABF substrate,都会影响开放以太网能不能稳定上 1.6T、3.2T。换句话说,AI Ethernet 的上限由协议栈和物理链路一起决定。

这张表把本文和此前 CPO、铜互连、PCB 文章区分开了。CPO 白皮书不是要把第四篇改写成光模块专题,而是告诉我们:AI Ethernet 的工程门槛是跨层问题。RoCE 解决传输语义,交换 ASIC 解决队列和路径,系统软件解决部署和排障,物理连接解决功耗、损耗、距离和可维护性。四层缺一层,开放网络都很难在高端训练里稳定扩容。
4、RoCEv2 是门票,但不是护城河
RoCEv2 的作用,是让以太网承载 RDMA。它把传统以太网从“通用包交换网络”推向“可用于高性能计算和 AI 集群的低开销传输网络”。没有 RoCEv2,AI Ethernet 很难与 InfiniBand 在训练场景里正面竞争。
但 RoCEv2 只是门票,不是护城河。原因很简单:协议本身开源、开放、可实现,真正困难的是怎么在真实大集群里处理 lossless fabric、拥塞、乱序、故障和运维。很多网络都可以说支持 RoCE,真正值钱的是能不能让 RoCE 在高负载、跨 pod、多路径和混合流量下稳定运行。
AI Ethernet 的 RoCEv2 栈可以分成四层。

这也是为什么 Arista 的价值不只是交换机端口,Cisco 的价值不只是传统网络订单,Broadcom 的价值不只是 Tomahawk 芯片。RoCEv2 把以太网带进 AI 后端网络,但真正把 RoCEv2 变成可部署网络的是系统工程。
5、PFC、ECN、DCQCN:无损以太网不是口号
训练集群最怕的不是平均速度慢一点,而是尾部节点拖慢所有同步。All-reduce、parameter synchronization、MoE routing、推理 KV cache 调度都会让网络出现突发流量。以太网如果用传统丢包重传逻辑处理这些流量,会把延迟尾部放大。
所以 AI Ethernet 必须先做“近似无损”。PFC 用来在局部链路上暂停优先级流量,ECN 用来给拥塞做标记,DCQCN 用来让端点根据拥塞信号调整发送速率。三者都不是新名词,但在 AI 集群里,它们从“网络功能”变成“训练稳定性保险”。
问题也在这里。PFC 如果配置不好,会引入 head-of-line blocking,甚至出现 PFC storm;ECN 和 DCQCN 如果调参不好,会导致过度降速或拥塞缓解不及时。AI Ethernet 的难点不是把功能写进产品页,而是在不同客户拓扑、不同流量模型、不同 NIC/DPU 和不同交换 ASIC 之间调成稳定系统。

这张表也解释了为什么 AI Ethernet 的竞争不是普通企业交换机竞争。普通网络更看端口、管理和安全;AI 后端网络更看 lossless fabric、尾延迟和端点协同。对投资来说,能把这些能力做成客户可复制部署的公司,才有资格享受 AI 网络估值。
6、Packet spraying 与 adaptive routing:开放网络要处理“乱”和“堵”
AI 训练和推理的网络流量不是均匀的。大量小流、少数 elephant flow、同步通信和突发写入会造成链路热点。传统 ECMP 只按 hash 把流量分到路径,遇到 elephant flow 时容易出现某些路径拥塞、某些路径空闲。AI Ethernet 要提高可用带宽,就必须更积极地使用 packet spraying、adaptive routing 和端点重排序。
packet spraying 的好处,是把流量拆散到多条路径,提升链路利用率;问题是可能带来乱序。乱序会让端点重组、缓存、排序和拥塞控制更复杂。adaptive routing 的好处,是根据实时拥塞选择更优路径;问题是需要交换 ASIC、遥测和系统软件能更快感知网络状态。
这就是 NIC/DPU 的价值。端点如果不能处理乱序、重排、RDMA 语义和遥测反馈,交换网络再聪明也难以稳定。AI Ethernet 的真正系统边界,不在交换机端口,而在交换机、NIC/DPU、软件栈和客户调度系统之间。

这也是为什么 AI Ethernet 的受益者不能只写 Arista 或 Cisco。系统厂验证的是客户部署,Broadcom/NVIDIA/Marvell 验证的是 silicon 和端点,Celestica/Accton 验证的是高端白盒交付。工程化网络是一组能力,不是一台盒子。
7、交换 ASIC:Tomahawk、Jericho、Spectrum、Silicon One、Teralynx 分工不同
交换 ASIC 是 AI Ethernet 的第一硬件入口。没有高容量、低延迟、高 radix 和成熟队列管理的交换芯片,系统厂很难把开放网络做成训练集群。J.P. Morgan 对数据中心以太网交换和 AI 数据中心交换的模型给出了需求斜率,Bernstein 则把 switch 和 connectivity/optics 都列为 AI 网络最大价值池之一。
但交换 ASIC 不能只按“谁的带宽最大”排序。Tomahawk 更偏高容量数据中心以太网,Jericho 更强调大规模 fabric 和深 buffer,NVIDIA Spectrum-X 结合自家 NIC/DPU 和软件栈,Cisco Silicon One 强在路由交换统一架构和系统自给,Marvell Teralynx/Prestera 更偏云厂白盒和特定平台机会。

交换 ASIC 的投资结论是:Broadcom 是开放以太网最核心的商用 silicon 税收层,NVIDIA 是闭环延伸到 Ethernet 的系统税收层,Cisco 是品牌系统和自有 silicon 结合的再验证,Marvell 是弹性补充。Arista 不做交换 ASIC,但它把商用 silicon 和 EOS 结合成客户可运行系统,这是另一种控制权。
8、系统软件:AI Ethernet 的护城河不在 CLI,而在稳定扩容
AI Ethernet 要做到大规模部署,不能靠硬件堆料。客户需要的是网络从几千卡扩到几万卡时,配置、遥测、变更、故障定位、性能回归和容量规划都能被系统化管理。这里正是 Arista、Cisco、NVIDIA 和云厂自研网络团队的价值。
Arista 的 EOS 和 CloudVision 价值,在于把商用 silicon 变成可复制的云厂网络平台。高盛报告里,Arista 1Q26 收入 27.09 亿美元,产品收入同比增长 37%,AI Center 2026 年收入指引上调到 35 亿美元,采购承诺升至 89 亿美元。这些数字说明,客户不是只买便宜交换机,而是在买一套可持续扩容的网络平台。
Cisco 的价值则在另一个方向:传统网络客户基础、Silicon One、Acacia 光学和完整系统能力。高盛报告显示,Cisco F3Q26 网络收入 88 亿美元,同比增长 25%,产品订单同比增长 35%,FY2026 AI 超大规模客户订单展望上调至 90 亿美元。Cisco 的 AI 纯度不如 Arista,但订单体量说明传统系统厂仍然能拿到超大规模 AI 网络预算。

系统软件的本质是降低客户扩容成本。AI Ethernet 的开放性越强,组件越分散,软件和运维越值钱。开放网络不是不要平台,而是平台从硬件闭环变成系统软件和客户网络工程。
9、白盒不是低端代工:Celestica 与 Accton 证明交付层也有门槛
如果只看品牌系统,容易低估白盒交换机和 ODM 的变化。1.6T、CPO、OCS、液冷、高速 PCB、光模块兼容、固件验证、软件加载和多 ASIC 支持,都让白盒交换机从“按图制造”升级为“系统工程交付”。
Celestica 的 1Q26 报告验证了这个方向。它的重点不是单季收入好看,而是 CCS 业务、全年指引和 1.6T CPO 交换项目同时指向高端网络交付能力。这说明 AI 网络交付不是低价值尾部环节,而是高端项目能否量产的闸门。
Accton 的 UBS 覆盖报告进一步把白盒价值说清楚。它不是普通装配公司,而是美国头部云厂数据中心交换机、AI 加速卡、switch tray 和未来 L11 rack 的系统工程伙伴。更关键的是,白盒交换市场份额高度集中,能够跨多 ASIC 平台做高速设计、热管理、测试和软件加载的 ODM 并不多。

这里的结论很直接:白盒不是 AI Ethernet 的低端替代,而是开放网络的一部分。云厂要降低闭环依赖,就必须有能承接商用 ASIC、光电链路和自研软件栈的系统交付伙伴。Celestica 和 Accton 的价值就在这里。
10、客户路线:不是所有云厂都会用同一张网络图
AI Ethernet 的推进速度,最终由客户路线决定。Microsoft/OpenAI、Meta、Google、AWS、Oracle、xAI、Anthropic、中国主要云厂的网络选择不会完全一样。训练、推理、自研 ASIC、供应链策略、电力约束、软件团队能力都会影响路线。
Meta 是开放网络和 custom silicon 最强的代表之一。高盛对 Broadcom 与 Meta 合作的报告显示,双方是多年多代战略合作,支持 MTIA custom compute chips,供应链计划延伸到 2029 年,首阶段承诺超过 1GW,并覆盖 scale-up、scale-out、scale-across 网络需求。这类客户会同时拉动 custom ASIC、Ethernet fabric、系统软件和白盒交付。
AWS 更像自研系统工程公司。Trainium、Nitro/NIC、以太网交换、白盒 ODM、系统软件和大规模云服务合在一套系统里。Accton 的报告把 Trainium 2/3、AI accelerator cards、switch tray 和 L11 rack integration 放在同一条价值链里,这说明自研 ASIC 客户会把网络、加速卡和系统集成一起外溢给合格供应链。

这张表解释了为什么不能用一个答案概括 AI Ethernet。高端训练闭环仍然有强确定性,自研 ASIC 客户会推动开放网络,快速扩容客户会先买成熟系统,中国市场则更强调开放和可控供应。公司排序必须放在客户路线里看。
11、财务验证:这篇是工程分析,但不能脱离订单和利润表
工程化文章如果没有财务验证,容易变成技术百科。把这组研报放在一起看,AI Ethernet 工程化已经有足够的订单和收入信号。

这张表把文章的投资方向压得更清楚:工程能力已经开始被财务验证。不是所有网络设备都能重估,但具备交换 silicon、系统软件、白盒工程、光电兼容和客户认证的环节,会获得更高质量的收入。
12、公司排序:先按控制层级,不按热度排序
AI Ethernet 工程化的公司排序,不能只按短期涨幅或订单标题。更合理的排序方法是三层:架构和 silicon 控制权、系统软件和客户平台、系统交付和白盒工程。

如果只买确定性,NVIDIA、Broadcom、Arista 是主线;如果买开放网络弹性,Broadcom、Marvell、Accton 更值得跟踪;如果买订单兑现,Arista、Cisco、Celestica 是更直接的财务验证;如果买工程瓶颈扩散,Astera、Credo、PCB/CCL、连接器和光电链要放在相关分支里看。
13、证伪清单:什么时候说明 AI Ethernet 工程化逻辑不成立
AI Ethernet 的方向很强,但最怕把开放生态写成自动胜利。开放网络要过四道证伪门:性能、运维、供应链和利润率。

这张表也给出跟踪方法。后续不能只看“AI 订单上修”,更要看订单是否转收入、收入是否守住毛利率、网络是否稳定运行、客户是否继续扩大开放以太网部署。
14、季度跟踪表:只看订单不够,要看工程指标和财务指标一起改善
AI Ethernet 的季度跟踪,要把工程指标和财务指标放在同一张表里。只有两者同时改善,才能证明开放网络不是主题行情,而是结构性利润池。

这个跟踪表的核心,是把“技术能不能跑”和“财务能不能兑现”绑在一起。只讲工程,不看收入,是技术爱好;只看订单,不看稳定性,是财务误读。AI Ethernet 的投资价值恰好在两者交叉处。
15、最终判断:开放网络的赢家,是能把复杂度做成平台的人
AI Ethernet 不是低配 InfiniBand,也不是所有以太网交换机公司的共同红利。它是一条更开放、更复杂、更考验系统工程的 AI 网络路线。
短期看,InfiniBand 和 NVIDIA 闭环仍然会在高端训练里保持强确定性。客户愿意为成熟闭环付溢价,因为训练稳定性和排障成本比单个端口价格更重要。这个判断不能因为 AI Ethernet 增长快就被推翻。
中期看,AI Ethernet 的增量斜率更高。原因不是它天然性能更强,而是云厂需要开放生态、多供应商选择、自研 ASIC 适配、白盒交付和总拥有成本优化。这个趋势会继续抬高 Broadcom、Arista、Cisco、Celestica、Accton、Marvell 以及 NIC/DPU、光电和接口芯片的价值。
长期看,真正穿越周期的公司不是“支持 Ethernet”的公司,而是能把开放网络复杂度做成平台的人。Broadcom 用 custom XPU、Tomahawk/Jericho 和客户网络协同收 silicon 税;NVIDIA 用 GPU、NIC/DPU、Spectrum-X、InfiniBand 和软件闭环收系统税;Arista 用 EOS 和客户网络工程收运维税;Cisco 用 Silicon One、Acacia 和传统客户体系收订单确认税;Celestica 和 Accton 用高端白盒工程收交付税。
连接白皮书补上的关键点,是这套平台利润最终还要落到物理链路。CPO/NPO/LPO、铜互连、CPC、OCS、PCB/CCL/ABF 和高端材料不是旁支,而是决定开放网络能不能从 800G、1.6T 继续走向 3.2T 的硬约束。也正因为如此,AI Ethernet 的赢家不只要会转包,还要会管理光电、板级、热、测试和运维的跨层复杂度。
所以,第四篇的结论可以压成一句话:AI Ethernet 的投资主线不是“以太网替代 InfiniBand”,而是开放网络从协议、芯片、系统软件、白盒工程到客户认证的工程化升级。谁能让万卡集群在开放网络里少拥塞、少重传、少排障、少空转,谁就能把端口价格变成平台利润。
数据口径与来源
本文主体判断来自多篇 2026 年 AI 数据中心网络、硬件与网络设备、半导体和系统制造研报的交叉验证,主要包括 Bernstein 关于 AI 数据中心网络分层与网络硬件价值池的研究,Bernstein 2026 年 5 月《Artificial Intelligence: Inside the War for AI Data Center Connectivity》连接白皮书,J.P. Morgan 关于硬件与网络市场模型、AI 数据中心交换、以太网后端网络和端口升级的模型,Goldman Sachs 关于 Broadcom/Meta、Arista、Cisco、Celestica 的公司研究,Citi 关于 Broadcom AI 半导体与网络平台的研究,以及 UBS 关于 Accton 白盒交换机、800G/1.6T 和系统工程的覆盖研究。
文中财务数据、市场规模、增长率、客户合作和目标价等均按对应研报或公司披露口径整理;目标价和评级仅作为机构观点背景,不构成当前估值结论。本文不进行实时股价判断,不构成任何证券买卖建议。后续判断可能随客户资本开支、技术路线、供应链、毛利率、订单确认和宏观环境变化而调整。

夜雨聆风