推理侧AI Infra的战略价值:为什么新云正在成为推理时代的核心战场
今天想系统聊一下 AI Infra,尤其是推理优化,为什么在 2026 年这个时间点变得如此重要。
我自己做 AI Infra,越在这个领域里做,就越能感受到一件事:AI 的竞争早就不只是模型参数、benchmark 和产品体验的竞争,本质上已经变成了一场基础设施竞争。
1. 什么是 AI Infra?
很多人一听 AI Infra,就会想到 GPU、机房、电力、液冷、网络。但这只是最表层。
AI Infra 真正指的是支撑 AI 模型从训练、部署、推理、监控到持续优化的整套底层系统。它既包括硬件,也包括软件。
硬件层面包括 GPU、TPU、IB 网络、NVLink、存储、电力、冷却和数据中心。软件层面包括集群调度、分布式训练框架、推理引擎、KV cache 管理、量化、稀疏化、prefill 和 decode 分离、continuous batching、speculative decoding、容错、监控和成本优化。
简单说,模型是“大脑”,AI Infra 是“身体”和“循环系统”。
没有 AI Infra,再强的模型也只能停留在论文、demo 或小规模测试里。真正把模型送到几亿用户面前,让它每天稳定回答问题、写代码、处理文件、驱动 agent 工作流的,是 Infra。
一个直观例子是 ChatGPT、Claude、Gemini 这类产品。你输入问题,它几秒内开始输出答案。背后不是简单地把模型放到一张 GPU 上跑,而是复杂的服务系统在同时处理成千上万用户请求:谁先 prefill,谁进入 decode,KV cache 怎么复用,多个请求怎么 batch,某个 GPU 挂了怎么迁移,长上下文请求怎么避免拖垮整个队列。
这就是推理 Infra。
另一个例子是训练。训练前沿模型时,模型需要在数万甚至更多加速卡上跑很长时间。这里的核心问题不是“有没有 GPU”这么简单,而是成千上万张卡能否高效通信,能否避免 straggler,能否稳定 checkpoint,能否在故障后快速恢复,能否把数据、网络、显存、算力都喂满。
这就是训练 Infra。
2. 推理Infra正在变成新的主战场
训练 Infra 决定模型能不能被高效的造出来。
推理 Infra 决定模型能不能被高效的用起来。
训练像造车。你需要更大的模型、更好的数据、更强的分布式系统,把模型能力推到更高的天花板。没有强训练 Infra,就没有前沿模型。
但推理像上路。车造出来以后,真正每天产生收入、产生成本、影响用户体验的是推理。每一个用户请求,每一次 token 生成,每一次 agent 工具调用,都会消耗实际算力。
这也是为什么推理侧越来越关键。Deloitte 预计 2026 年推理 workloads 将占全部 AI compute 的约三分之二,而 2023 年这个比例约为三分之一。换句话说,AI 产业的重心正在从“如何训练出一个模型”,转向“如何把这个模型以足够低成本、足够高速度、足够稳定的方式服务给全球用户”。
这会带来一个非常现实的问题:模型训练得再强,如果推理成本太高,商业化就跑不通。如果首 token 延迟太高,用户会觉得产品“卡”。如果输出速度太慢,agent workflow 的体验会崩。如果系统不稳定,企业客户不会把核心业务放上来。
所以,推理 Infra 不只是工程优化,而是模型商业化的生命线。
3. 商业 LLM serving 里,好 Infra 和普通 Infra 的差距会被无限放大
很多人会低估 Infra 的差距,以为大家用的都是 Nvidia GPU,所以服务质量应该差不多。
事实正好相反。同样的 GPU,在不同 Infra 团队手里,产出的 token 数、延迟、稳定性和单位成本可能完全不同。
vLLM 的 PagedAttention 是一个经典例子。它把操作系统里的分页思想引入 KV cache 管理,让 LLM serving 在 KV cache 上接近零浪费,并且在同等延迟下把吞吐提升 2 到 4 倍。
这只是单点优化。真实生产系统里还有更多层:量化减少显存和带宽压力,continuous batching 提升并发,speculative decoding 加快生成,prefill 和 decode 分离提高集群利用率,expert parallelism 让 MoE 模型更高效,kernel fusion 减少内存访问,低比特 matmul 榨干硬件性能。
这些优化叠加起来,差距会非常夸张。
SemiAnalysis 在最新分析里提到,同样是 B300 跑 DeepSeek R1,是否使用 wideEP、disaggregation、MTP 等软件优化,吞吐可以从约 1k token/s/GPU 提升到约 14k token/s/GPU。也就是说,软件优化本身就可能带来约 14 倍吞吐差距。
Artificial Analysis 的 provider benchmark 也能看到类似现象。同一个 gpt-oss-120B,不同 provider 的输出速度和 TTFT 差异巨大。榜单中最快 provider 的输出速度达到 2135.6 token/s,而慢的 provider 只有 20.3 token/s,速度差距可达 105 倍。
这就是为什么 AI Infra 是商业 LLM 的护城河。
普通用户看到的是“这个模型快不快”。企业客户看到的是“这个服务稳不稳”。公司 CFO 看到的是“每百万 token 成本能不能降下来”。但这些问题背后,本质都是 Infra。
4. 当前模型提供商的真实困境:模型能力越强,算力越不够
过去大家讨论模型公司,常常只看 benchmark:谁的 coding 强,谁的 reasoning 强,谁的 long context 强。
但现在更重要的问题是:你有没有足够算力把这个模型服务出去?
前沿模型越来越强,也越来越贵。尤其是 reasoning model 和 agentic workflow,单次任务可能不是生成几百个 token,而是多轮思考、多次工具调用、大上下文读写、长时间执行。用户看到的是一次任务,后台消耗的可能是成千上万甚至更多 token。
所以,模型公司真正的瓶颈开始从“训练一个模型”变成“持续服务全球需求”。
这也是为什么最近 Anthropic 连续锁定长期算力。前几天,Anthropic 宣布与 Google 和 Broadcom 扩大合作,获得多个 GW 级别的下一代 TPU capacity。随后又宣布与 Amazon 扩大合作,最高锁定 5GW capacity,并承诺未来十年在 AWS 技术上投入超过 1000 亿美元。它还与 CoreWeave 达成多年度 cloud compute 协议,用于支持 Claude 模型的开发和部署。
这说明一件事:前沿模型公司不是“可选地买算力”,而是必须提前锁算力。
因为算力不是你今天想要,明天就能上线。GPU 要排产,机房要建设,电力要接入,网络要调试,液冷要部署,集群要验收,推理栈要适配。等用户需求爆发以后再找算力,往往已经晚了。
所以,长期云合约在今天不只是采购行为,而是战略行为。谁先锁定 capacity,谁就拥有更稳定的服务、更低的边际成本和更强的产品迭代能力。
5. 投资视角:为什么新云在现阶段特别重要?
传统云当然仍然强。AWS、Azure、Google Cloud 拥有全球区域、企业客户、网络、安全、存储、数据库和完整生态。它们是云计算时代最强的基础设施公司。
但 AI workload 改变了云的核心需求。
传统云是 general purpose cloud,服务对象非常广:数据库、Web 服务、存储、企业 SaaS、传统虚拟机、serverless、数据分析。它们当然也做 AI,但它们的基础设施不是一开始就只为大规模 GPU 训练和推理而设计。
新云,也就是 Neocloud,则更像 AI compute utility。它们通常从一开始就围绕 GPU 集群、高密度机房、液冷、IB 网络、裸金属交付、快速部署和高利用率来设计。它们不试图做所有云服务,而是专注于一件事:把 AI compute 尽快、尽稳、尽便宜地交付出去。
这就是新云的机会。
在 AI 需求爆发时,最稀缺的不是通用云服务,而是可立即使用的大规模加速算力。传统云有钱、有客户、有技术,但它们也面临自家模型训练、企业客户需求、电力接入周期和供应链约束。新云的价值在于,它们可以成为更灵活的增量 capacity 通道。
这不是理论。Microsoft 与 IREN 签了 97 亿美元、五年期的 AI cloud 合同,用于获得 Nvidia GB300 算力。Meta 与 Nebius 签了最高 270 亿美元、五年期的 AI infrastructure 协议。
这说明,连传统大厂和 hyperscaler 自己,也在通过新云锁定外部 AI capacity。
所以,新云不是传统云的简单替代品,而是 AI 时代传统云、模型公司和应用公司共同需要的“算力放大器”。
6. Nebius 收购 Eigen AI:为什么这件事值得重视?
Nebius 收购 Eigen AI,是我认为非常典型的信号。
Nebius 是一家 AI cloud 公司,核心业务是提供面向训练和推理的 GPU 集群、AI Cloud 和 Token Factory。根据 Nebius 官网,它支持从单 GPU 到数千张 Nvidia GPU 的预优化集群,并且面向训练和推理场景提供高性能网络和调度能力。
Eigen AI 则是做推理和模型优化的公司。Nebius 官方公告称,Eigen AI 是 inference and model optimization company,收购后会把 Eigen 的推理和 post-training 优化层直接整合进 Nebius Token Factory。
这笔交易的关键不在于“又一个云厂商收购 AI 公司”,而在于它揭示了新云竞争的下一阶段。
第一阶段,新云比拼的是谁能拿到 GPU,谁能拿到电力,谁能更快建机房。
第二阶段,新云比拼的是谁的集群更稳定,谁的网络更好,谁的运维能力更强。
第三阶段,也就是现在正在发生的阶段,新云要比拼的是推理效率。谁能在同样硬件上生成更多 token,谁就有更高毛利、更低价格和更好服务质量。
Eigen 自己在公告中把优化拆成三层:模型层,包括量化、剪枝、MoE routing、KV cache architecture、speculative decoding 和 post-training;系统层,包括 scheduler、memory manager、continuous batching、prefill 和 decode 分离;kernel 层,包括 fused operators、custom attention kernels 和 low-bit matmul。
这正是推理 Infra 的核心。
Nebius 买 Eigen,本质上是在补齐从 GPU cloud 到 inference platform 的能力。它不只是出租 GPU,而是要把 GPU、推理引擎、模型优化、自动扩缩容、fine-tuning pipeline 打包成 production AI platform。
这也是新云未来的关键护城河:不仅要有算力,还要会把算力变成高质量 token。
7. 新云的盈利空间来自哪里?
新云的盈利空间并不只是“低买 GPU,高价出租 GPU”。
真正的利润来自三个变量:
第一,算力稀缺。需求增长太快,供给扩张太慢,导致有 capacity 的人有定价权。
第二,长约和预付款。模型公司、传统云和大厂愿意提前签多年合约,帮助新云融资建设集群。
第三,推理优化。相同硬件如果能多产出几倍 token,成本曲线会完全不同。
SemiAnalysis 提到,Neocloud GPU 租赁价格从 2025 年 10 月低点以来上涨 40%。同时,随着 token 生产成本下降和需求上升,推理服务毛利率从低于 40% 提升到高于 70%。他们还估算,一个典型 GB300 项目在 5 年、15% 预付款情境下,项目 IRR 可达 15.6%。
这组数字说明,新云的机会不是单纯来自“炒 GPU”,而是来自 AI 价值链的结构性变化。
当 token 变得越来越有价值,用户愿意为高质量 agentic workflow 付费。与此同时,推理优化又让 token 生产成本下降。收入端上升,成本端下降,中间的利润池就被模型公司、推理平台、新云和硬件供应链共同捕获。
这也是为什么 Nvidia、云厂商、新云、模型公司之间会形成复杂关系。它们既竞争,又合作。传统云可能是新云的客户,模型公司可能同时买 AWS、Google、CoreWeave、Nebius 和 Oracle 的 capacity,新云则通过长约反过来融资建更多集群。
AI Infra 已经不是简单的供应链,而是一个新的资本市场和技术市场交汇点。
8. 结论:新云重要,新云的推理 Infra 更重要
我的核心判断是:未来 AI 竞争不会只是谁模型更强,而是谁能把强模型以更低成本、更高速度、更高稳定性服务给更多用户。
这就是 AI Infra 的价值。
训练 Infra 决定模型上限。推理 Infra 决定商业下限。没有训练 Infra,就没有 frontier model。没有推理 Infra,frontier model 就无法大规模变现。
新云的重要性在于,它们提供了传统云之外最快的增量 AI capacity。传统云仍然强大,但在 AI 算力需求爆发时,它们自己也需要外部 capacity。Microsoft 需要 IREN,Meta 需要 Nebius,Anthropic 需要 AWS、Google、CoreWeave,OpenAI 也需要多方云资源。这说明新云已经成为 AI 基础设施版图中的关键一环。
但更深一层看,新云真正的护城河不会只是“我有 GPU”。
因为 GPU 最终会变成资本密集型资产。真正能拉开差距的是:谁能把同样的 GPU 跑得更满,谁能让同样的集群产出更多 token,谁能让同样的模型更快、更稳、更便宜地服务用户。
所以,AI Infra 尤其是推理优化,不是幕后工程,而是 AI 商业化的正面战场。
模型决定智能的高度,Infra 决定智能的可达性。
未来的 AI 战争,一半在模型里,另一半在 Infra 里。
夜雨聆风