当前大模型军备竞赛已从单纯的算力比拼,悄然转向网络基础设施的全面较量。当数万张GPU需要像一台超级计算机一样协同工作时,网络延迟、带宽瓶颈、协议效率等问题开始成为决定AI训练成败的关键因素。
Futuriom最新发布的《2026年AI网络趋势报告》揭示了一个核心判断:AI网络基础设施正在经历从能用到好用的跃迁。本文综合了该报告核心内容与行业最新动态,梳理当前AI网络领域的六大关键趋势。
过去一年,AI网络领域最显著的变化是以太网地位的全面回升。
长期以来,英伟达力推的InfiniBand凭借其原生支持RDMA的特性,在AI训练网络市场占据主导地位。然而,这一格局正在被打破。报告数据显示,采用RoCEv2的以太网方案正成为超大规模数据中心的新欢。
背后的逻辑并不复杂:
- 以太网拥有成熟的生态系统、丰富的供应商选择和更低的学习成本
- RoCEv2在性能上已无限接近InfiniBand
- 统一的数据中心网络架构可以同时承载AI训练、推理和通用计算,降低运维复杂度
超以太网联盟(Ultra Ethernet Consortium,UEC)在2025年6月发布了1.0规范,为以太网注入了专门针对AI工作负载优化的传输协议,并且得到了思科、谷歌、HPE、英特尔、AMD、Meta、微软等头部玩家的共同背书,被视为InfiniBand的长期替代方案。目前已经更新到1.0.2版本
Futuriom明确指出:“以太网仍然是数据中心的首选网络架构。尽管InfiniBand依然流行,但以RoCEv2形式存在的以太网正成为超大规模云厂商越来越青睐的方案。
从国内视角来看,阿里巴巴、字节跳动等头部互联网公司在新建AI集群中,也在加大对RoCEv2方案的投入。
AI网络的第二大趋势,是训练(Training)与推理(Inference)网络需求的彻底分化。
这两个阶段虽然都涉及大规模数据传输,但在网络设计上却有着本质区别:
维度 | AI训练 | AI推理 |
流量特征 | 集合通信为主(AllReduce) | 点到点请求/响应 |
带宽需求 | 极高(TB级数据同步) | 中等(请求粒度小) |
延迟敏感度 | 中等(批量同步可容忍一定延迟) | 极高(实时响应要求) |
网络规模 | 万卡级紧耦合 | 分布式、边缘化 |
训练网络需要支持大规模的集合通信操作,要求网络具备高带宽、低抖动、强一致的特性。这直接推动了InfiniBand、RoCEv2乃至UEC等专用协议的发展。
推理网络则更像是互联网流量的延续,大量分布式的推理请求需要网络能够高效路由、快速响应。这催生了专门面向推理场景的网络架构创新。
推理的瓶颈正从网络转向 GPU 内存带宽。因为每次 token 生成都要重新加载权重和 KV Cache,HBM 带宽往往先被占满。这就催生了模型并行、专家并行(MoE)等策略,而这些策略又反过来对网络的 All-to-All 通信能力提出更高要求。
如果说前两个趋势是用网络赋能AI,那么第三个趋势则是用AI赋能网络,即AIOps和智能网络代理正在成为企业网络解决方案的标配。
报告指出,当前主流网络厂商几乎都已在产品中集成了AI能力:
- 智能故障检测:利用机器学习识别网络异常,提前预警
- 自动根因分析:将平均故障定位时间从小时级缩短到分钟级
- 自适应流量调度:根据实时负载动态调整路由策略
- 预测性维护:基于历史数据预测硬件故障时间窗口
对于企业客户而言,这意味着网络运维正在从人找问题向问题找人转变。一位企业网络架构师曾这样描述:过去我们花80%的时间在排障,现在AI帮我把排障时间压缩到20%,我可以专注于更有价值的工作。
AI网络的第四大趋势,是光网络技术在数据中心内部的全面复兴。
传统观点认为,光网络主要用于数据中心之间的长距离互联,而数据中心内部主要依赖铜缆和电气互联。但AI时代正在改变这一认知。
核心驱动力是功耗与空间:
- 一个典型的AI训练集群可能包含数万张GPU
- GPU之间的互联需要大量光模块支撑
- 每个400G光模块的功耗可达15-20W
- 当光模块数量达到百万级别时,功耗问题变得触目惊心
这直接推动了共封装光学(Co-Packaged Optics,CPO)技术的快速发展。CPO的核心创新是将光学组件直接封装到交换芯片旁边,省去独立光模块的多出来的功耗和延迟。
报告提到的重要进展:
- 英伟达:已在InfiniBand Quantum-X平台推出CPO方案,Quantum-X的Spectrum-X版本也即将面世
- Marvell + Lumentum:联合开发了集成光电路交换(OCS)的机架级系统
- Resolight(以色列初创公司):正在开发全光交换系统,号称可将网络可扩展性提升10倍
AI网络的第五大趋势,是网络边缘正在成为推理部署的主战场。
这一趋势的驱动力来自多个方面:
1. 延迟需求
智能驾驶、工业控制、AR/VR等场景对推理延迟有严格要求,数据不能每次都跑到云端再回来。边缘推理可以在本地完成计算,将端到端延迟从100ms+压缩到10ms以内。
2. 带宽优化
如果所有推理请求都传输到云端,带宽成本将是一个天文数字。边缘推理可以在本地过滤无效请求,只将关键数据传输到云端。
3. 数据主权
企业出于合规要求,不希望将数据传出本地。边缘推理可以满足这一诉求。
4. AI-RAN的兴起
电信运营商正在大力推进AI-RAN(AI驱动的无线接入网),将AI推理能力部署在基站附近的边缘节点。这一趋势正在全球范围内蔓延,从T-Mobile到中国运营商,都在积极布局。
报告指出:“针对网络边缘AI部署需求的服务和解决方案正在兴起。 Equinix、Cloudflare等边缘服务提供商也在积极布局这一市场。
AI网络的第六大趋势,是专业AI云服务正在成为企业AI部署的重要选项。
报告指出,尽管很多大型企业有自建AI基础设施的计划,但实际落地的复杂度和周期远超预期。这催生了一批专注于AI基础设施的云服务提供商:
- CoreWeave:专注于GPU计算的云服务商,被称为AI时代的AWS
- Lambda Labs:提供GPU云服务器和深度学习工作站
- TensorWave:AMD生态的AI云服务商
- Nebius:俄罗斯最大互联网公司Yandex分拆出的AI云平台
- TogetherAI:开源模型托管平台
- Crusoe:主打清洁能源的AI云服务商
这些替代云厂商的崛起正在打破AWS、Azure、GCP三大云厂商对AI基础设施的垄断。对于中小企业而言,这意味着可以用更低的价格、更快的速度获取AI算力。
在AI发展的下一阶段,网络将从幕后英雄走向台前主角。
过去几年,AI行业的关注点主要在模型算法和GPU算力。但当算力逐渐过剩(相对需求而言),当模型架构趋于收敛,网络基础设施开始成为决定AI系统效率的关键变量。
从以太网与InfiniBand的世纪之争,到CPO技术的光速进化;从万卡集群的协同挑战,到边缘推理的最后一公里,AI网络正在编织一张覆盖从芯片到云端到边缘的全栈连接网络。
这场连接革命的终局会是什么?市场将做出选择。
SDNLAB公众号后台私信260511获取报告下载链接!
【投稿】:SDNLAB原创文章奖励计划
夜雨聆风