从 GPU 荒到推理为王,AI 基础设施正在经历范式转移
引言
2025 年是 AI 基础设施的分水岭。训练大模型不再是少数巨头的专利,推理成本成为新战场,而 Agentic AI 的兴起对基础设施提出了全新要求。
本文从硬件、软件栈、部署模式三个维度,梳理 AI Infra 的现状与趋势。
一、硬件层:GPU 霸权与挑战者
NVIDIA 的统治地位
NVIDIA 占据 AI 芯片市场 80-90% 的份额,这不是偶然:
NVIDIA 的护城河不只是芯片:
CUDA 生态:20 年积累,几乎所有 AI 框架都深度依赖 NVLink/NVSwitch:GPU 互联带宽远超 PCIe 全栈软件:TensorRT、Triton、NCCL 形成闭环
挑战者们
AMD MI300X
192GB HBM3(H100 的 2.4 倍显存) ROCm 生态在 PyTorch 上已相当成熟 性价比优势明显,Meta、Microsoft 大量采购
Google TPU v5p/v6
专为 Transformer 优化 仅对内部和 GCP 客户开放 Gemini 系列全部在 TPU 上训练
国产芯片
华为昇腾 910B/910C:国内大模型主力 寒武纪、燧原、摩尔线程:各有突破 受限于先进制程,性能仍有差距
边缘推理芯片
Groq LPU:固定延迟,适合实时推理 Cerebras WSE-3:单芯片训练完整模型 各种 NPU(高通、苹果、Intel):端侧推理
二、软件栈:从训练到推理的转移
2025 年的关键转变
Jensen Huang 在 GTC 2026 开场说:"2025 是推理之年。"
这不是夸张。随着 GPT-4 级别模型成为标配,企业的关注点从"能不能训出来"变成"能不能便宜地跑起来"。推理集群的规模开始超过训练集群。
推理引擎对比
主流 LLM 推理框架在 2026 年已经相当成熟:
| vLLM | ||
| TensorRT-LLM | ||
| SGLang | ||
| TGI |
关键优化技术
Speculative Decoding(投机解码)
用小模型"猜"接下来的 token,大模型验证。2025 年从论文变成生产标配:
EAGLE/EAGLE-3:2-3x 加速,各框架原生支持 Google AI Overviews 已在用此技术
量化
FP8:Blackwell 原生支持,几乎无精度损失 INT4/GPTQ/AWQ:显存减半,速度翻倍 1-bit(BitNet):微软研究,尚在实验阶段
KV Cache 优化
长上下文是显存杀手。解法:
PagedAttention:按需分配,减少碎片 Chunked Prefill:流水线处理长 prompt Ring Attention:跨 GPU 分布式处理超长上下文
训练框架
PyTorch + FSDP/DeepSpeed:开源主流 JAX + XLA:Google 系首选 Megatron-LM:NVIDIA 的超大模型训练方案 Colossal-AI:国内开源替代
三、部署模式:从自建到云原生
三种部署范式
1. 自建数据中心
适合超大规模训练,需要:
千卡级 GPU 集群 InfiniBand/NVLink 高速互联 液冷系统(Blackwell 以上几乎必须) 稳定的电力供应(单集群可达百兆瓦)
玩家:OpenAI、Google、Meta、字节跳动
2. 云服务
国内:阿里云、腾讯云、华为云、火山引擎
3. Serverless 推理
不关心底层,按 token 计费:
OpenAI API / Azure OpenAI Anthropic Claude API Groq(超低延迟) Together.ai(开源模型) Fireworks.ai
四、当前挑战
能源瓶颈
AI 数据中心的电力需求指数级增长:
一个 H100 峰值功耗 700W 一个 GB200 NVL72 机架功耗 120kW 到 2030 年,AI 可能占全球数据中心能耗的 40-50%
许多地区电网根本供不上。这正推动:
可再生能源投资 液冷/浸没式冷却 芯片能效优化
GPU 利用率
即使是大厂,GPU 利用率也常低于 50%:
训练任务波动大 推理负载不均衡 资源调度低效
解法:
更好的编排(Kubernetes + GPU Operator) 多租户共享 异构调度
互联瓶颈
当集群规模超过数千卡,网络成为新瓶颈:
AllReduce 通信开销巨大 故障容错变得关键(一张卡挂了整个 job 重来)
新方向:
NVLink 5.0 / NVSwitch 4.0 400G/800G Ethernet 专用 AI 路由协议
五、未来方向
推理为王
到 2027 年,推理工作负载将超过训练。这意味着:
推理专用硬件崛起(Groq、Cerebras) 边缘部署需求增加 Token 经济学成为核心指标
Agentic AI 基础设施
AI Agent 对基础设施提出新要求:
低延迟:Agent 需要实时交互 长上下文:记忆和工具调用需要大 KV cache 可靠性:7x24 运行,不能随便挂
这推动了:
Prefill/Decode 分离架构 状态持久化 混合精度动态切换
工厂级基础设施
NVIDIA 提出的"AI Factory"概念正在实现:
GW(Gigawatt)级数据中心 万卡以上的单一集群 端到端垂直整合
不只是堆硬件,而是软硬件协同设计的"AI 工厂"。
可持续 AI
ESG 压力下,绿色 AI 不再是口号:
碳足迹成为采购标准 可再生能源供电成为卖点 芯片能效比训练 FLOPS 更重要
六、给从业者的建议
如果你是 AI 工程师
学习推理优化(vLLM/TensorRT-LLM)比训练更实用 理解 GPU 内存管理和量化技术 关注 Agentic 架构对基础设施的要求
如果你是架构师
不要只看 FLOPS,关注 TCO(总拥有成本) 考虑混合云策略:训练用自建/专用云,推理用弹性 规划液冷和高密度部署
如果你是决策者
GPU 供应仍然紧张,提前锁定产能 关注 NVIDIA 之外的选择(AMD、国产) 能源和冷却是新的基建投资重点
结语
AI Infra 正从"能跑就行"走向工业化。
2023-2024 年是 GPU 荒的疯狂期,2025 年推理优化成为主战场,2026 年我们开始看到真正的"AI 工厂"雏形。
未来 3-5 年,AI 基础设施将经历类似云计算早期的洗牌:标准化、规模化、专业化。
站在这个节点上,理解基础设施的演进逻辑,比追逐最新的 benchmark 数字更重要。
写于 2026 年 4 月
参考资料
Google Cloud: 2025 State of AI Infrastructure Report NVIDIA GTC 2026 Keynote McKinsey: The State of AI 2025 Crusoe: 2026 AI Infrastructure Trends Report
夜雨聆风