乐于分享
好东西不私藏

AI产业的底层真相:从Token定价到架构革命,看懂产业格局的全部逻辑

AI产业的底层真相:从Token定价到架构革命,看懂产业格局的全部逻辑

AI产业的谜题——为何行业呈现出如今的中心化格局、为何模型架构被设计成当下的形态、为何API定价遵循现有的规则、甚至AI技术的演进轨迹为何如此——答案都藏在Transformer模型推理与训练的底层技术细节里。

本文将还原AI算力的“第一性原理”,并推导出行业未来的核心演进方向。

一、批次大小:AI 成本与延迟的核心天平

我们先从用户能直接感知的商业现象切入:

1. 为什么只要多花钱,就能换取更低的Token生成延迟?

2. 提速是否存在物理上限?哪怕支付100倍的费用,能否实现“无限快”的响应?

3. 能否反向推出“慢速模式”,让用户用更长的等待时间换取更低的定价?

要理解这个问题,我们首先要搞懂:大模型生成一句话,到底在干什么?

大模型的文本生成,是一个“逐字接龙”的过程,专业上叫自回归解码。你输入的每一句话、AI生成的每一个字,在模型里都被转化成了一个叫“Token”的基本单位。我们可以把大模型生成Token的过程,比作一家“Token生产工厂”。工厂的核心资产有两个:

一是生产图纸(模型权重),也就是大模型经过训练后,在推理阶段固定的全部参数。它定义了Token 生产的全部规则,包括如何理解输入内容、如何匹配上下文语义、如何输出合规的新 Token,是工厂的核心技术资产。

二是流水线缓存(KV 缓存),也就是用户此前输入的文本、以及模型自身已生成的所有 Token,对应的自注意力层 Key 和 Value 向量缓存。它的核心作用有两个:一是存储了历史生产的全部关键信息,让新 Token 的生成能精准承接上下文,保证语义连贯;二是避免重复计算,大幅提升 Token 的生产效率,是工厂实现高效量产的核心工程优化。

工厂的生产流程分为两步:

第一步,把生产图纸从仓库(内存)运到生产线(芯片计算单元);

第二步,生产线结合图纸和用户的历史记录,完成加工,生成一个新的Token。

而所谓的“批次”(Batch Size),就是生产线一次加工所能同时服务的用户数量。

可以把GPU的推理计算,比作一趟固定线路的高铁。这趟高铁的发车周期是固定的(通常是10-30ms,行业主流设置为20ms左右),每隔一段时间就必须发一班车。批次大小,就是这趟高铁的座位数。

这个类比,直接回答了开篇的三个核心问题:

– 所谓“极速模式”,就是你包下了一整趟专列——哪怕只有你一个用户,列车也立刻发车,无需等待其他乘客。你支付的溢价,本质是为其他空座位的成本买单,牺牲了成本分摊的规模效应,换取了零排队的低延迟。

– 提速存在绝对的物理上限。哪怕你包下专列,列车也必须跑完固定的线路:你必须把整套生产图纸(模型权重)从仓库运到生产线,这个运输时间由仓库到生产线的车道宽度(内存带宽)决定。无论你花多少钱,都不可能让图纸的运输速度超过硬件带宽的极限。

– “慢速模式”完全成立。如果用户愿意等待,工厂就可以等列车的座位全部坐满再发车,把图纸运输的固定成本,分摊到车厢里的所有用户身上,人均成本会大幅下降。这就是离线批量推理场景的核心商业逻辑,也是未来大模型降本的核心方向之一。

高铁运营的最优解,就是每一趟车都完全坐满,把固定成本平摊到最多的乘客身上,把人均成本降到最低。对应到模型推理里,就是把批次大小拉到最优水平,让权重读取的固定成本被完全分摊,最终单位Token的成本会无限接近理论下限——也就是仅由计算时间决定的最低成本。

这个“慢速模式”,本质上就是用用户的等待时间,换取批次填满的规模效应,把成本压到最低。这也是为什么很多To B的大模型服务,对延迟不敏感的批量处理场景,定价能做到To C 的几十分之一——核心就是批次大小的差异。

二、批次大小的最优解:量化数据里的产业真相

那么,对于前沿大模型来说,最优的批次大小到底是多少?Reiner Pope通过计算机体系结构经典的屋顶线模型(Roofline Model),给出了一个量化公式:

最优批次大小≈ 300 × 稀疏度

*注1:该公式的适用场景为大模型自回归解码阶段,预填充(用户输入处理)阶段的内存与计算特征不同,最优批次大小的计算逻辑存在差异。

*注2:本文此处用的是便于计算和理解的自定义“稀疏度”定义,即「模型总参数量/单次推理活跃参数量」(MoE场景下简化为总专家数/单Token激活专家数);行业标准稀疏度定义为「(总参数量-活跃参数量)/总参数量」,用于表征模型非激活参数的占比,二者含义不同,请注意区分。

这里的300,是一个由硬件决定的无量纲常数——它等于GPU的浮点运算能力(FLOPs)除以内存带宽,这个数值在当前大模型推理主流使用的H100 SXM5、Blackwell B100 GPU上,始终稳定在300左右。

DeepSeek V3模型为例它的总参数规模为671B(6710亿),采用混合专家(MoE)架构,实际推理时每个token激活的参数为37B,每层配置256个路由专家,单token共激活8个专家。为简化公式推导,将单步激活专家数设定为32个,对应自定义稀疏度(总专家数/单步激活专家数)为8,它的最优批次大小就是300×8=2400左右。

这个数字意味着什么?

– 对于这个模型来说,当批次大小达到2400时,权重读取的固定成本会被平摊到几乎可以忽略不计,单位Token的成本会降到理论下限;

– 当批次大小小于2400时,内存访问时间会成为系统瓶颈,单位成本会随着批次缩小急剧上升;当批次大小为1时,成本会是最优状态的上千倍;

– 当批次大小大于2400时,计算时间会成为系统瓶颈,继续增大批次,单位成本不会再下降,反而会导致单个Token的生成延迟增加。

更关键的是,这个最优批次大小,直接决定了AI产业的规模化门槛。我们可以做一个简单的换算:

如果一趟高铁的发车周期是20毫秒,也就是每秒发车50次,最优批次大小是2400,那么单台GPU机架每秒能处理的Token数量就是2400×50=12万。而据行业公开数据,Gemini的全球流量规模达到了每秒数亿个Token——这意味着,哪怕你想做到Gemini分之一的市场份额,也需要几十台顶级GPU机架的算力规模。

这就是AI产业天然走向中心化的核心底层逻辑:只有拥有足够大的用户流量,才能持续填满最优批次,把单位成本降到能参与市场竞争的水平。中小玩家哪怕能训练出同级别的模型,也会因为无法填满批次,导致推理成本是巨头的几倍甚至几十倍,最终在价格战中毫无还手之力。

、稀疏性与并行策略:大模型规模化的核心密码

既然批次大小决定了成本的下限,那么有没有办法在不牺牲延迟的前提下,进一步降低成本、扩大模型规模?答案就在稀疏模型架构与并行计算策略里,这也是当下前沿大模型最核心的技术竞争赛道。

1. 稀疏模型:大模型的“专家分工制”

当下主流的大模型架构:专家混合模型(Mixture of Experts,MoE),也就是我们常说的稀疏模型。

用通俗的类比:

传统的稠密大模型,就像一个全能的老师,不管你问数学、语文、历史还是编程问题,都必须由这一个老师全程解答,哪怕他只需要用到自己知识体系里的一小部分。而MoE稀疏模型,就像一个拥有256个不同专业老师的学校,你问的每一个问题,系统只会把它路由给32个最相关的专业老师来解答,其他224个老师完全不用参与工作。

这就是稀疏性的核心价值:模型的总参数量可以做得极大,从而拥有极强的能力,但单次推理的活跃参数量却很小,计算成本大幅降低。

但稀疏模型也带来了一个新的问题:这么多的“专家老师”,该怎么放到GPU上?这就引出了并行计算的第一个核心策略:专家并行。

2. 专家并行:机架内的全互联红利

专家并行的逻辑非常简单:把不同的专家模块,放到不同的GPU上。比如DeepSeek的256个专家,我们可以用64块GPU,每块GPU上放4个专家,这样当一个Token被路由给32个专家时,只需要在对应的32块GPU上完成计算即可。

但这里有一个致命的瓶颈:GPU之间的通信带宽。

Token在不同专家之间的路由,是一种“全互联”(all-to-all)的通信模式——任意一块GPU,都可能需要和其他任意一块GPU传输数据。

这就像学校里的老师之间需要频繁传递学生的作业,如果老师都在同一个办公室里,传递起来就非常快;如果老师在不同的教学楼里,传递起来就要绕很远的路,速度会慢很多。

在英伟达的硬件体系里,这个“同一个办公室”,就是单个GPU机架。机架内部的GPU之间,通过NVLink高速互联,单卡双向带宽能达到900GB/s;而机架与机架之间,主流采用400G以太网连接,带宽仅50GB/s,实际差异可达10-20倍。

这就意味着:稀疏模型的专家规模,天然被单个机架的GPU数量限制了。如果你把256个专家跨两个机架部署,那么平均有一半的Token需要跨机架传输,通信延迟会直接成为系统的核心瓶颈,抵消稀疏模型带来的所有成本优势。

这也解释了为什么英伟达的硬件迭代,始终在不断扩大单个机架的GPU规模:从Hopper架构的8颗GPU,到Blackwell架构的72颗,再到最新的Rubin架构的500多颗。

很多人会问:为什么不把机架做得无限大?为什么不直接做一个能装1000颗GPU的巨型机架?

答案是:物理世界的限制,远比我们想象的严苛。

机架的规模上限,由四个核心物理因素决定:

1. 线缆密度:每增加一颗GPU,就要增加大量的高速线缆,机架内部的空间根本无法容纳无限多的线缆,同时还要满足线缆的弯曲半径要求,防止线缆折断;

2. 供电能力:一颗顶级GPU的峰值功耗能达到700W以上,1000颗GPU的峰值功耗就达到了700KW,这已经是一个小型变电站的供电规模,根本无法在单个机架内实现;

3. 散热能力:GPU运行时会产生巨大的热量,机架的散热能力有明确的物理上限,无法支撑无限多的GPU同时满负荷运行;

4. 重量与结构:装满GPU、交换机、线缆的机架,重量能达到数吨,必须用高强度的金属结构才能防止形变坍塌,而机房的地板承重也有明确的上限。

正是这些物理限制,决定了单个机架的规模天花板,也决定了稀疏模型的规模上限,最终成为了大模型产业竞争的核心硬件门槛。

3. 流水线并行:跨机架规模化的妥协方案

既然单个机架的规模有上限,那能不能把模型拆开放到多个机架上?答案是可以,这就是流水线并行策略。

流水线并行的逻辑,和工厂的生产线一样

我们把大模型的100层网络,拆分成4段,每25层为一段,分别放到4个不同的机架上。第一个机架负责处理前25层的计算,完成后把结果传给第二个机架,第二个机架处理完传给第三个,以此类推,就像生产线上的每个工位只负责一道工序。

流水线并行的核心优势,是大幅降低了单个机架的内存需求。你不需要把整个万亿参数的模型都塞到一个机架里,只需要放四分之一的模型层即可,这让超大规模模型的部署成为了可能。

但它的缺点也同样致命:

第一,延迟的线性增加。流水线的每一个跨机架传输,都会带来几毫秒的额外延迟,4个机架的流水线,就会带来十几毫秒的延迟增加,对于需要低延迟的对话场景来说,这是无法接受的。

第二,KV缓存的内存占用无法分摊。流水线并行能降低模型权重的内存占用,但无法降低KV缓存的内存占用。因为为了让流水线的每个工位都能满负荷运转,你必须同时运行多个微批次,最终单块GPU上的KV缓存占用量,和不用流水线并行时完全一致,没有任何节省。

第三,流水线气泡的产能浪费。如果流水线的某个工位出现延迟,后面的所有工位都会陷入空闲状态,就像生产线上的某个环节卡壳,整条线都会停摆,这种空闲浪费被称为“流水线气泡”。在训练阶段,我们可以通过微批次优化来减少气泡,但在在线推理场景,用户的请求是随机的,气泡带来的产能浪费会被急剧放大。

这就是为什么在线低延迟对话场景的推理阶段极少大规模使用流水线并行的核心原因;而在离线批量推理、模型预训练场景中,流水线并行是行业通用的核心优化手段

同时也解释了为什么在Blackwell机架问世之前,大模型的规模增长陷入了停滞——因为之前的单个机架,根本无法支撑万亿级参数稀疏模型的部署,而跨机架的流水线并行,又会带来在线场景无法接受的延迟与成本上升。

、内存墙:大模型当前瓶颈的核心痛点

讲到这里,你应该已经发现了:无论是批次大小的成本权衡,还是稀疏模型的规模限制,最终都指向了同一个核心瓶颈——内存也是AI产业里人人都在说的“内存墙”。

所谓内存墙,指的是一个残酷的硬件现实:

过去十年,GPU的浮点计算能力(FLOPs)增长了上千倍,但内存带宽的增长只有不到50倍,内存容量的增长更是只有不到20倍。现在的大模型推理,GPU有超过80%的时间,不是在做计算,而是在“等数据”——等模型权重、KV缓存从内存里传输到计算芯片中。

目前的内存带宽与容量,已经成为制约大模型性能与成本的核心瓶颈。所有你看到的大模型API定价策略、长上下文能力的差异、甚至未来大模型的演进方向,本质上都是在和内存墙做斗争。

1API定价里的内存墙秘密

我们看看内存墙是如何决定商业定价的。

规则一:长上下文加价——Gemini 3.1对20万Token以上的输入,加收50%的费用

为什么是20万Token?为什么加价50%?答案就在内存访问时间与计算时间的交叉拐点里。

我们之前讲过,模型推理的总耗时,是内存访问时间与计算时间的最大值。计算时间只和活跃参数量有关,和上下文长度完全无关,单一模型中是一个固定值;而内存访问时间里,KV缓存的读取时间,和上下文长度呈线性关系——上下文越长,需要读取的KV缓存数据越多,内存访问时间就越长。

当上下文长度达到20万Token时,Gemini 3.1的内存访问时间,正好超过了计算时间,成为了系统的核心瓶颈。超过这个拐点后,继续增加上下文长度,内存访问时间会线性上升,成本也会同步增加,所以必须通过加价来覆盖额外的成本。

50%的加价幅度,本质上就是20万Token以上的场景,内存访问时间的增加幅度。

规则二:输入输出定价差——几乎所有大模型的输入Token定价,都比输出Token便宜3-5倍

这个定价差异,更是内存墙的直接体现。我们先搞懂两个概念:预填充(Prefill)与解码(Decode)。

– 预填充:就是处理用户输入的文本的过程。用户输入的1000个Token,是一次性并行处理的,批次大小就是1000,内存访问的固定成本被平摊到1000个Token上,单位成本极低;

– 解码:就是AI生成输出文本的过程。AI每生成一个Token,都要做一次完整的前向传播,单step批次大小为并发序列数,无法平摊固定成本,单位成本极高。

用通俗的话讲,预填充就是你把一整篇文章,一次性交给所有老师一起批改,效率极高,人均成本极低;解码就是你让老师一个字一个字给你写文章,每个字都要所有老师过一遍,效率极低,成本极高。

3-5倍的定价差,本质上就是解码阶段与预填充阶段的内存成本差异,与商用大模型的实际API定价完全匹配:GPT-4o输入定价$5/百万Token,输出$15/百万Token(3倍差);Claude 3 Opus输入$15/百万Token,输出$75/百万Token(5倍差)。

这个定价差异,向我们暴露了一个行业真相:

当前主流大模型的在线推理,完全处于内存带宽受限的状态。如果模型处于计算受限的状态,输入和输出的单位成本应该是基本一致的,不会出现几倍的差异。

2)长上下文的终局瓶颈:为什么百万Token难以普及?

现在很多大模型都宣称自己支持百万级、甚至千万级的上下文长度,但在实际应用中,超过20万Token的场景少之又少,核心原因就是:长上下文的成本,会随着上下文长度的增加呈线性增长,而内存墙让这种成本增长变得无法承受。

很多人以为,长上下文的瓶颈是计算量的二次增长——也就是注意力机制的计算量,会随着上下文长度的平方增长。但Reiner Pope明确指出,这是一个普遍的认知误区:注意力机制的计算量,在FlashAttention 2/3等技术的优化下,已经被压缩到了可以忽略不计的程度,真正制约长上下文的,不是计算能力,而是内存带宽与内存容量。

上下文长度从20万增加到100万,KV缓存的内存占用会直接增加5倍,需要读取的内存数据量也会增加5倍,内存访问时间会同步增加5倍,单位Token的成本也会增加5倍。这意味着,百万Token上下文的推理成本,会是20万Token的5倍以上,对于绝大多数用户来说,这是完全无法接受的。

有人会问:稀疏注意力不是能解决这个问题吗?比如DeepSeek的稀疏注意力,能把复杂度降到上下文长度的平方根级别。

没错,稀疏注意力确实能大幅降低长上下文的成本,但它有一个无法突破的天花板:过度稀疏化,会导致模型质量的急剧下降。稀疏注意力的本质,是让模型只关注上下文中的一小部分关键Token,而忽略大部分无关内容。但如果稀疏度过高,模型就会丢失关键的上下文信息,出现“答非所问”的情况。

这也是为什么DeepSeek V4的推出需要花费那么长时间,而且还是在牺牲了一定模型质量、容忍了更高幻觉的前提下出来的。

由于高带宽内存(HBM)的技术水平短期内很难再实现大幅度的飞跃式提升,所以内存墙依然是长上下文能力最大的瓶颈,目前没有清晰的彻底解决方案。

3. KV缓存的内存层级:缓存定价的底层逻辑

还有一个很多人都注意到的API规则:大模型的缓存命中定价,比普通输入定价低10倍以上。比如你把一份长文档上传到模型里,后续的对话只要命中了这份文档的缓存,成本就会急剧下降。这背后,依然是内存墙的逻辑,以及内存层级的成本权衡。

KV缓存的处理,有两种核心方式:

1. 重计算(Rematerialization):也就是缓存未命中的情况,你需要把整个长文档重新输入模型,从头计算生成完整的KV缓存,成本极高,对应的就是普通的输入Token定价;

2. 缓存读取:也就是缓存命中的情况,KV缓存已经提前计算好了,只需要从内存里读取出来即可,成本极低,对应的就是缓存命中的定价。

而缓存的成本差异,本质上是由KV缓存存储的内存层级决定的。计算机的内存体系,是一个金字塔结构,越往上速度越快、成本越高,越往下速度越慢、成本越低,各层级的核心参数与耗尽时间如下:

存储介质
典型带宽
耗尽时间区间
核心特性
HBM(高带宽内存)
3-6TB/s
20ms 左右
与 GPU 直连,速度最快,价格最贵
DDR5 内存
50-100GB/s
1-10 秒
主机端内存,速度中等,成本较低
PCIe 4.0 SSD(闪存)
5-7GB/s
1 分钟左右
持久化存储,速度慢,成本极低
企业级机械硬盘
500MB/s
小时级
大容量存储,速度最慢,成本最低

对于KV缓存的存储,有一个明确的成本权衡规则:短期需要频繁使用的缓存,放在HBM里,随时可以调用,存储成本高,但读取成本接近零;长期不用的缓存,放在闪存甚至机械硬盘里,存储成本极低,但需要的时候要花时间读取到HBM里,有额外的读取成本。

这个内存层级的权衡,本质上还是在和内存墙做斗争:用更低成本的存储介质,缓解HBM的容量压力,从而降低长上下文的整体成本。

、缩放定律的另一面:训练与推理的成本平衡

我们前面讲的,都是推理阶段的底层逻辑,但大模型的成本,还有训练成本、强化学习成本。很多人都会困惑:为什么现在的大模型,都在疯狂地“过度训练”——用比Chinchilla缩放定律建议的多100倍的数据,去训练一个更小的模型?这背后,依然是成本平衡的底层逻辑。

首先,我们先回顾一下Chinchilla缩放定律:

DeepMind 2022年在《Training Compute-Optimal Large Language Models》中提出的核心结论是,对于大模型训练来说,模型参数量(N)和训练数据量(D)需要满足D≈20N的固定比例,才能实现训练效率的最优。比如一个1000亿参数的模型,最优的训练数据量是2万亿Token,再多训练,模型的效果提升就会变得微乎其微,训练效率会急剧下降。

但现在的前沿大模型,已经打破了这个定律。根据行业公开数据,GPT-4级别的模型,预训练数据量达到了150万亿Token,是Chinchilla最优解的75倍;而最新的前沿模型,训练数据量甚至达到了Chinchilla最优解的100倍以上。

为什么厂商要做这种“费力不讨好”的事?这个底层逻辑非常简单:

大模型的总成本,是一次性的训练成本、强化学习成本,加上持续性的推理成本之和。Chinchilla定律只优化了训练成本的效率,但完全没有考虑推理成本。而对于一个商用大模型来说,推理成本才是占比最高的部分——一个模型上线后,会被大量用户调用,处理数万亿甚至数十万亿的Token,推理成本会是训练成本的几倍甚至几十倍。

这时候,最优的策略就发生了变化:我们宁愿增加一次性的训练成本,用更多的数据过度训练一个更小的模型,只要这个更小的模型,能把持续性的推理成本降下来,最终实现整体总成本的最小化就是可行的策略

比如,一个6710亿参数的稀疏模型,用150万亿Token过度训练,训练成本是1亿美元,但它的推理单位成本,只有一个用2万亿Token训练的1万亿参数稠密模型的1/10。模型上线后,只要处理的Token总量超过10万亿,过度训练的成本就会被完全覆盖,整体成本会远低于Chinchilla最优解的模型。

结语:AI产业巨头,谁都输不起

整个AI产业的商业竞争,已经不只是模型能力的竞争、定价的竞争、生态的竞争,更是对算力底层物理规则的理解与利用能力的竞争。在新的颠覆性范式出现之前,未来AI产业的格局,将由硬件的物理极限决定的:内存带宽、机架的扩展域规模、存储介质的性能,这些看似底层的硬件参数,直接决定了模型架构的上限,也决定了行业玩家的入场门槛。

这既解释了当前英伟达的竞争壁垒,也解释了AI产业巨头之间紧密的供应链合作及生态绑定现象—-因为谁都输不起(靠自己很难赢)。

参考资料:MatX CEO Reiner Pope的访谈内容,DeepSeek、google等官方资料