AI Infra(AI基础设施)是一个正在定义下一代技术底座的关键概念,涵盖专门为AI工作负载设计、构建、管理和优化的底层硬件与软件系统。本文从算力硬件、数据存储、模型训练、推理部署、网络互联到产业格局,对AI Infra进行全方位技术拆解。
一、什么是AI Infra?
AI Infra(AI Infrastructure,AI基础设施)是一个正在定义下一代技术底座的关键概念,其涵盖专门为AI工作负载设计、构建、管理和优化的底层硬件与软件系统。它的核心目标是高效、大规模地支撑AI模型的训练和推理任务。如果说开发大模型是在"造房子",那么AI Infra就是建筑工人手中的"一整套工具箱"。
本质上,AI Infra并非单一工具或框架,而是一套覆盖数据、算力、模型、服务全生命周期的工程化系统。一个完整的AI基础设施需要具备六大核心能力:
- 异构算力调度能力——面对GPU、TPU、FPGA、ASIC等多元芯片并存的新格局,需通过算力调度技术和平台对不同硬件进行深度适配和统一管理;
- 智能应用支撑能力——基于云原生编排、微服务框架和高性能应用服务,以支撑上层AI应用;
- 数据供给与治理能力——确保模型训练和推理过程中数据的高效流转与质量;
- 高带宽低延迟网络能力——支撑分布式训练中成千上万节点间的同步通信;
- 自动化运维能力——覆盖从集群调度、资源监控到故障检测及自动恢复的完整运维链条;
- 安全与合规能力——尤其是在金融、医疗等受监管行业中保障模型和数据的安全可控。
与通用云计算相比,AI工作负载的特征决定了AI Infra的特异性:AI训练依赖大规模并行浮点运算,要求多GPU间高带宽低延迟互联,这完全不同于以IO操作为主的传统CPU服务器负载;训练过程涉及TB至PB级大规模数据集的高频吞吐,要求存储系统提供极高的IOPS和顺序带宽;训练任务通常耗时数天甚至数周,一旦中断损失巨大,因此对底层基础设施的稳定性和容错能力要求远超传统IT场景;再加上异构硬件并存的复杂性,使软件栈需要针对不同硬件深度优化才能最大化性能利用率。
二、AI Infra技术栈全景:从硅层到应用层
当前行业对AI基础设施的分层架构已形成相对共识,从底层到顶层可分为五个层次:
第一层:算力与硬件层——AI Infra的"地基"
这是整个AI基础设施的物理底座,也是战略价值最高的一层,主要由AI芯片(GPU/TPU/NPU等)、高性能服务器和数据中心基础设施构成。
在AI芯片领域,英伟达凭借CUDA生态和Blackwell架构GPU的持续迭代,在全球范围保持领先。AMD借助MI300X/350系列加速追赶。Google自主研发的TPU已迭代至v7/v8代,其统一高速互联架构将集群规划的基本单位从单台服务器升级为整个机柜模块,驱动800G以上光模块的渗透率在2026年超过60%。在中国市场,华为昇腾系列受益于国产替代政策快速崛起,寒武纪和海光信息等也在跟进。
第二层:数据与存储层——模型训练的"燃料系统"
这一层的核心挑战是在高吞吐、低延迟的前提下,支撑模型训练和推理中海量数据的存储、预处理和高效供给。在基础存储设施方面,高性能分布式存储、NVMe SSD、对象存储是标配。更具AI特色的是向量数据库的兴起——这类数据库专门为AI模型的嵌入向量(Embedding)设计,是RAG(检索增强生成)系统的核心基础组件,能够快速在海量知识中检索出与用户查询最相关的内容。数据标注与处理则是确保训练数据质量的关键环节。
第三层:模型开发与训练层——从"炼丹"到"工厂化生产"
这一层覆盖从模型架构选择、训练、微调到实验追踪的全流程。PyTorch已是事实上的行业标准训练框架。实验追踪与MLOps保障了AI开发过程的可复现性和可管理性。Hugging Face已发展为"AI时代的GitHub",截至2026年1月,其Hub上托管了超过240万个预训练模型。过去一年,该平台上41%的大模型下载量来自中国研发的模型,中国已成为全球开源大模型供给最活跃的地区之一。
第四层:推理与部署层——让模型真正"面向用户"
随着AI应用的规模化落地,推理(Inference)的计算量已在很多场景中超过训练。vLLM凭借极致吞吐量优化(连续批处理、PagedAttention KV缓存管理)成为生产环境最广泛使用的推理引擎之一。SGLang通过RadixAttention技术,在系统提示词前缀高度复用的场景下展现出显著性能优势。Serverless GPU平台作为这一层的新兴形态正在蓬勃发展,正在逐步改变AI推理的资源调度和计费方式。
第五层:算力调度与AI云平台——AI Infra的"操作系统"
这一层将底层算力资源高效灵活地分配给上层AI应用。传统云计算巨头(AWS、Azure、Google Cloud)正在全面升级AI服务能力,但更具产业关注度的是专门围绕AI工作负载建立的新型云基础设施——被业界称为"Neocloud(新云)"或"GPU云"。CoreWeave、Lambda Labs等厂商代表了这一赛道的崛起,它们通常比传统公有云便宜30-50%,专为GPU密集型工作负载设计。
三、AI Infra核心网络与互联技术深度解析
AI基础设施的性能瓶颈,往往不在计算本身,而在数据如何高效地流动。本章对AI Infra中最关键的几项网络与互联技术进行逐一拆解。
3.1 RDMA:绕过CPU的"内存直通车"
传统TCP/IP网络通信存在两大核心瓶颈:数据需要经过操作系统内核多次复制与协议栈处理,导致CPU资源被大量消耗;同时多次上下文切换引发通信延迟抖动。在AI分布式训练场景中,数千个GPU节点需要频繁同步梯度数据,网络延迟可能成为整体训练效率的决定性制约。
RDMA(Remote Direct Memory Access,远程直接内存访问)技术的核心突破在于实现内存到内存的直接数据传输,无需CPU参与数据包处理。其工作机制依赖两项关键技术:
- 内核旁路:数据包处理完全绕过操作系统内核协议栈,应用程序可以直接将数据从用户空间发送到网卡硬件。
- 零拷贝:通过内存注册机制,RDMA网卡可以直接读写远程主机的内存区域,无需中间缓冲区拷贝。
这两项技术的叠加,使RDMA能够将数据传输延迟降低至微秒级别,同时将CPU从网络处理中彻底解放出来,使其专注于实际计算任务。
实现RDMA的主流路径有三条:InfiniBand、RoCE和iWARP。其中iWARP基于TCP/IP,受TCP协议栈性能限制,应用范围较窄;InfiniBand和RoCE则是当前AI基础设施的两大主流选择。
3.2 RoCE:用标准以太网跑出超算级通信
RoCE(RDMA over Converged Ethernet,基于融合以太网的RDMA)由IBTA于2010年提出,其核心思想是将RDMA协议封装在标准以太网帧中传输,在以太网基础设施上实现高性能、低延迟的数据传输。
RoCE有两个版本:RoCE v1使用MAC地址寻址,仅支持二层网络内的通信;RoCE v2引入了IP+UDP封装,支持三层路由,可跨子网部署,已成为当前的主流协议。
RoCE技术架构三个关键层次:
物理层:支持10G/25G/100G/400G等高速以太网标准,通过PFC(优先级流量控制)机制实现无损网络。
传输层:采用UDP协议承载RDMA数据包,需配合ECN(显式拥塞通知)实现拥塞控制。
RDMA层:提供Verbs接口抽象,支持SEND/RECEIVE、RDMA WRITE/READ等操作模式。
RoCE的核心原理是通过规避传统TCP/IP协议栈的多次上下文切换与数据拷贝,让服务器经网卡直接读写远程主机内存,全程无需操作系统内核介入,从而显著降低数据传输延迟与CPU资源占用率。典型测试数据显示,在ResNet-50训练任务中,采用RoCE v2的网络可使单次迭代时间缩短37%,GPU利用率提升22%。
💡 核心挑战:拥塞控制
RoCE基于UDP协议,缺乏TCP原生的拥塞控制能力,单个丢包就可能导致整个集合通信操作停顿,造成昂贵的GPU空闲等待。目前主流方案有DCQCN(通过ECN标记触发发送端速率调整,适用于中等规模集群)和TIMELY(基于RTT梯度调整发送速率,在超大规模部署中表现更优)。
为什么RoCE在AI基础设施中日益占据主导?关键在于其在性能与成本之间找到了平衡点。InfiniBand需要专用硬件体系,采购和维护成本较高。RoCE基于通用以太网交换机和网卡构建,网络运维团队可以沿用既有的以太网知识体系。自2025年以来,随着以太网技术的飞速演进,RoCE在很大程度上已开始替代传统的InfiniBand,尤其在追求成本效益和开放性的互联网企业场景中。但在追求极致性能的万卡级训练集群中,InfiniBand依然凭借硬件级别的确定性控制保持着不可替代的地位。
3.3 InfiniBand:为高性能计算而生的专用网络
InfiniBand是一种专为高性能计算、数据中心和AI集群设计的高速网络互连标准,由IBTA(InfiniBand贸易联盟)于1999年发布。它从诞生之初就为极致性能而设计,核心特性体现在三个层面:
- 物理层:采用基于信用(Credit)的链路级流量控制机制,发送端只有在确认接收方有足够缓冲区空间后才启动报文发送,从硬件层面彻底避免了缓冲区溢出导致的丢包问题。这种确定性传输机制保证了即使在极高负载下也能维持低延迟和最小抖动。
- 网络层:支持自适应路由,能够将流量动态分布在所有可用网络链路上,最大化整体带宽利用率。
- 应用加速:通过SHARP(可扩展层次聚合与归约协议)等技术实现网络内计算,将集合通信操作(如All-Reduce)的部分计算卸载到网络交换机上执行,可将这些操作的完成速度提升数倍。
InfiniBand几乎每代产品带宽翻倍。当前最新的NDR/XDR规格支持400Gbps乃至800Gbps以上的单端口速率,端到端延迟低于微秒级别。
⚠️ 主要局限
InfiniBand需要配套专用的网卡和交换机,采购成本远高于标准以太网设备;运维需要专门的InfiniBand知识体系;技术生态相对集中,供应链选择有限。在实际工程决策中,InfiniBand通常用于对性能要求极为严苛的万卡级AI训练集群,而中小规模集群或推理场景越来越多地转向RoCE方案。
3.4 NVLink与NVSwitch:GPU内部的"数据超高速公路"
如果说InfiniBand和RoCE解决的是服务器之间的横向扩展(Scale-Out)通信问题,那么NVLink解决的是单台服务器内部多GPU之间的纵向扩展(Scale-Up)互联问题。
NVLink是英伟达专为GPU间高速互联设计的直连技术。以当前第六代NVLink为例,它为每颗GPU提供高达3.6 TB/s的双向带宽,较上一代性能提升2倍,比PCIe Gen6高出14倍。NVLink的核心价值在于实现了GPU间的直接数据交换,绕过传统的CPU分配和调度机制,使GPU之间的数据传输无需经过主机内存中转,显著减少延迟并提升吞吐量。
更进一步,英伟达通过NVSwitch芯片将多个NVLink连接在一起,在机架级别实现全互联GPU通信。以Rubin NVL72架构为例,72颗GPU通过NVLink Switch实现全互联,总聚合带宽可达260 TB/s,72颗GPU对外呈现为单一高性能加速器,可提供高达3.6 exaFLOPS的AI算力。在更小规模的全互联域(如576-GPU,由8个NVL72组成)中,任意GPU可直接读写其他GPU的HBM内存,由硬件自动维护缓存一致性,对外呈现统一地址空间和统一内存池。
这种机架级全互联架构为万亿参数以上的混合专家模型训练和推理提供了不可或缺的通信基础设施。
3.5 NCCL:GPU集体通信的"操作系统"
有硬件互联基础后,还需要一套高效的软件层来管理GPU之间的数据移动。NCCL(NVIDIA Collective Communications Library)正是扮演这一角色的关键组件。
在大规模分布式训练中,GPU需要频繁执行All-Reduce、AllGather、ReduceScatter等集合通信操作。以数据并行训练为例,每块GPU在自己的一批数据上计算梯度后,必须在优化器步骤之前对所有GPU的梯度进行平均——这就是All-Reduce操作发挥作用的时刻。
NCCL专门负责高效完成这些操作。从设计目标看,NCCL需要做到:
- 拓扑感知——自动识别GPU的互联拓扑(NVLink直连、PCIe桥接、InfiniBand网络等),并针对性地选择最优通信算法;
- 协议选择——根据数据量大小在环形算法和树形算法之间动态切换,以及在小数据量和大数据量场景下选择不同的传输协议(LL模式与Simple模式);
- 多通道并行——利用多NVLink链路或多网卡实现通信的并行化,最大化带宽利用率。
根据最新的学术研究,通过NCCL结合环形拓扑结构,可使All-Reduce操作的带宽利用率提升至90%以上。
NCCL的演进方向也值得关注。NCCLbpf技术通过在NCCL中嵌入eBPF运行时,实现了更加安全、可动态热更新的插件化通信策略定制,可将AllReduce吞吐量在特定场景下提升高达27%(4-128MiB数据范围内)。NCCL EP(Expert Parallelism)则将MoE模型的高度专业化通信模式(专家分发与结果聚合)原生构建在NCCL的基础设施之上,为万亿参数级MoE模型提供了高效的通信原语支持。
3.6 CXL:打破"内存墙"的互连技术
如果说NVLink和InfiniBand解决的是"算力之间如何互联"的问题,CXL(Compute Express Link)解决的是"算力与内存之间如何重新组织"的问题。
传统服务器架构存在一个根本性矛盾:每台服务器的内存独立绑定于各自的CPU,A服务器内存满载而B服务器内存空闲时,两者互不相通。CPU和GPU之间传输数据需要手动拷贝,延迟极高。当异构加速器数量增多时,数据一致性全靠软件硬扛,性能瓶颈严重。
CXL的解决方案极为直接:它基于PCIe物理层构建,但增加了缓存一致性协议支持,本质上是一条"带缓存一致性的超级总线"。它诞生的核心目的是将内存从CPU里拔出来,变成所有计算单元共享的内存池,让CPU、GPU、TPU、FPGA像访问本地内存一样互相访问。
CXL四代演进:
1.0/1.1:实现基础直连和内存扩展;
2.0:引入Switch组件,真正实现内存池化(这是转折点);
3.0:带宽翻倍,支持跨机架组网共享内存资源;
4.0:速率达到128GT/s,支持多级交换拓扑,为十万卡集群的内存架构设计提供了新的可能。
谷歌已将CXL视为下一代TPU架构的关键技术方向。其下一代TPU v8规划中采用了计算单元(TPU,少量或无HBM)、光交换网络(OCS光交换加CXL协议)、独立DRAM内存机柜的三层解耦架构,目标是将可用内存容量扩大4倍,同时大幅降低成本。
CXL 4.0所支持的百TB级共享内存池(跨多个机架维护缓存一致性)将直接冲击AI推理场景的KV缓存卸载策略,使得数十TB的模型上下文缓存可以被更为高效地池化管理。
3.7 DPU:从CPU"卸载"基础设施负担
DPU(Data Processing Unit,数据处理单元)是AI基础设施中日益重要的第三颗处理器(与CPU、GPU并列),其核心定位是将原本由CPU承担的基础设施任务卸载到专用硬件上,释放CPU算力用于核心业务逻辑。
DPU本质上是一类集成了计算能力的智能网卡,通常内置多个ARM核心或专用加速器,配合高速网络接口(可支持100G/200G乃至400G以上),承担网络数据包处理、存储协议栈卸载、安全加密、虚拟化网络策略执行等工作。在AI数据中心中,DPU可用于为多租户GPU集群提供硬件级别的安全隔离平面,也可承担RoCE网络的拥塞控制和流量管理智能,将部分网络策略从GPU主机侧转移到网卡端执行。
英伟达BlueField系列是DPU领域的代表性产品。其第四代BlueField-4整合了Grace CPU核心与ConnectX-9网络引擎,定位为"千兆级AI工厂"的加速基础设施平台,可通过硬件层面的控制与执行平面实现工作负载隔离、软件完整性验证、加密处理与网络策略强制执行,且这些操作完全独立于主机CPU。部分安全厂商已将其安全方案集成到BlueField DPU上,以在AI数据中心的网络入口处实现安全策略的硬件化检测与执行。
四、全球AI Infra市场格局
市场规模与增长态势
根据不同研究机构的预测口径,全球AI基础设施市场正经历爆发式增长。BCC Research预计,全球AI基础设施市场将从2025年的1583亿美元增长至2030年的4188亿美元,年复合增长率达21.5%。聚焦中国,赛迪顾问的统计显示,2024年中国AI Infra市场规模为34.5亿元,2025年预计达67.3亿元,同比增长95.1%。AI Infra产业各细分赛道在未来3-5年内市场空间有望保持30%的年均增长率。
资本市场动态
AI Infra领域已成为全球资本竞逐的战略要地。全球范围内,2026年AI基础设施投资的预估规模高达6650亿美元。中国企业基流科技在2026年3-4月连续完成C轮和D轮融资,估值达91.6亿人民币,并已向港交所递表,冲击"港股AI Infra第一股"。
五、关键趋势与演进方向
2026年被认为是AI基础设施从"炫目演示"转向"工业化部署"的关键拐点,当前AI Infra领域正呈现以下关键趋势:
💡 趋势一:重心从"性能优先"转向"效率优先"
业界关注点已从"算力绝对值"转向"每瓦特每美元产出多少Token"——这一效率指标正在成为衡量AI基础设施质量的新标准。随着模型创新速度相对放缓,基础设施的创新反而变得更加重要,开始反过来引领AI产业的发展方向。
💬 趋势二:推理算力超越训练算力成为需求主力
随着应用大规模普及和Agent化趋势加速,实际生产环境中的推理请求量正在以指数级速度增长。应用端流量特征已发生根本性变化,推理所需的算力资源已开始超过训练的比例,直接推动了推理引擎和Serverless GPU服务的迅速崛起。
✅ 趋势三:面向物理世界的AI基础设施正在崛起
AI的应用范畴正在从纯数字世界扩展至物理世界——自动驾驶、机器人、具身智能、工业AI等都需要全新的基础设施支撑。这一领域已被Bessemer Venture Partners列为下一代AI基础设施需突破的五大前沿方向之一。
⚠️ 趋势四:网络通信技术激烈博弈
随着万亿参数模型和百T以上共享内存池成为现实,InfiniBand、RoCE等传统互联方案与UAL、CXL等新型标准之间的技术路线之争日趋白热化。铜缆与光缆的选择、PCB与载板技术的升级、以及通信协议的标准化方向,都在深刻重塑AI Infra的连接格局。
六、总结
AI Infra正站在一个新旧动能交替的关键节点上。它不再只是支撑模型训练的"后台",而是决定整个AI产业能否跨越从"技术演示"到"规模价值"这一鸿沟的核心变量。
从技术维度看,AI Infra正在经历从"纵向延伸"(单点优化)到"横向融合"(系统级协同)的范式跃迁。RDMA和RoCE让以太网具备了接近超算级的通信能力,InfiniBand继续在极致性能场景中保持领先,NVLink和NVSwitch在机架级别构建了GPU间的"数据超高速公路",NCCL作为集合通信的软件层将这些硬件能力高效地呈现给训练框架,CXL正在尝试从架构层面打破"内存墙"瓶颈,而DPU则承担起卸载基础设施负担的角色。这些技术之间并非彼此孤立,而是在不同层次上协同配合,共同构成了AI基础设施的技术骨架。
从产业维度看,中国正在形成从芯片到算力集群到模型开发平台的完整国产替代链条。从时间维度看,2026年的AI Infra正在重演1995年互联网基础设施从"拨号上网"向"宽带互联"跃迁的历史进程。这场变革的颠覆性影响将在未来2-3年内显著显现,届时全球AI基础设施格局将真正成型。
作者:老金|专注企业AI架构,帮你省钱避坑
夜雨聆风