用黑板讲透 AI 推理:一位前 Google TPU 架构师揭开了大模型最底层的秘密
「如果你不把多个用户请求批量处理,你的成本会比批量处理高出大约 1000 倍。」
「最优批量大小约为 300 乘以模型的稀疏度——对于 DeepSeek 这样的 MoE 模型,大约是 2000 到 3000 个并发序列。这个数字与业界实践惊人地吻合。」
「Gemini 3.1 在 20 万 token 上下文处涨价 50%,这个价格拐点恰好对应了内存带宽与计算时间的交叉点。你可以通过 API 定价反向推导实验室的架构决策。」
本期嘉宾是 Reiner Pope。他现任新芯片创业公司 Maddox 的 CEO,此前在 Google 担任 TPU 架构师,深度参与了 Google 多代 TPU 的设计工作。这期 Dwarkesh Patel 播客采用了一种全新的黑板讲座形式——Dwarkesh 专门搭建了一个全新演播室,配上黑板,让 Reiner 用推导公式的方式,一层层揭开大模型训练和推理的底层机制。
这不是那种泛泛而谈的 AI 趋势讨论。Reiner 从最基本的推理延迟公式出发,用 Roofline 分析框架,推导出了批量大小与延迟、成本之间的定量关系,解释了 Claude、Codex 等服务的「快速模式」为什么能用 6 倍价格提供 2.5 倍速度,以及为什么你不能无限花钱买更低的延迟。
整场讲座涉及 KV Cache 的内存带宽瓶颈、MoE 层的 GPU 机架映射、Pipeline 并行策略、API 定价的架构含义、训练与推理成本的平衡,甚至讨论了神经网络与密码学在信息混合机制上的深刻联系。
以下是这期技术深度播客的完整梳理。
批量大小:推理经济学的核心
一切从一个看似简单的问题开始:为什么 Claude、Codex 和 Cursor 等服务都提供「快速模式」——用 6 倍的价格,换取 2.5 倍的生成速度?你能不能花 100 倍的价格获得更快的速度?反过来,如果你愿意等几分钟,能不能获得更便宜的「慢速模式」?
Reiner 的答案直指核心:决定推理成本和延迟的最大因素,是批量大小(batch size)。
在推理时,GPU 不是逐个处理用户请求,而是将多个用户的请求组合成一个批次(batch),一次性并行处理。这个看似简单的 batching 操作,对成本和延迟有着决定性的影响。理解这一点,是理解整个 AI 推理经济学的起点。
Reiner 用 Roofline 分析框架来建模——这是硬件性能分析中一种经典的方法,通过比较内存带宽和计算能力的上限来预测实际性能。推理一个 token 所需的时间由两部分决定:一是内存获取时间(从 HBM 高带宽内存中读取模型权重和 KV Cache),二是计算时间(执行权重矩阵乘法)。
权重读取时间是固定的——无论 batch 多大,你都需要读取整个模型的所有参数。一个万亿参数模型,即使使用 FP4 量化,也需要读取约 500GB 的权重数据。但当你把 batch 变大时,这个固定的权重读取成本就被摊薄到了更多的序列上。这就是批量摊薄效应,也是整个推理经济学中最强大的力量。
成本(每个 token 的推理成本)随批量大小的变化曲线呈现出一个清晰的双曲线形状:在 batch size 为 1 时,成本几乎趋于无穷大,因为全部权重读取成本都摊给了一个 token;随着批量增大,成本快速下降,直到计算时间成为主导因素,成本曲线才趋于平缓。
「如果你不把多个用户请求批量处理,你的成本会比批量处理高出大约 1000 倍。」Reiner 说。这个数字不是夸张——在 batch size 为 1 时,每个 token 都要独自承担整个模型权重的读取成本,效率极低。
那最优批量大小是多少?Reiner 通过令内存时间与计算时间相等,推导出了一个简洁而深刻的公式:
最优批量大小 ≈ 300 × 稀疏度
这里的「稀疏度」是指总参数与活跃参数的比值。例如 DeepSeek V3 有 256 个专家,每次激活 8 个,稀疏度约为 32,最优批量大小就是 300 × 32 = 约 9600 个并发序列。考虑到实际效率损失,业界通常会再乘以 2 到 3 倍的安全系数。
更令人惊讶的是,这个最优批量大小几乎不依赖于模型规模——无论是 100B 还是 1T 参数模型,最优批量大小都只取决于稀疏度。这意味着推理的经济规模效应并不像人们想象的那样随模型尺寸急剧放大。一个 10 倍大的模型,并不会带来 10 倍的推理成本优势。
这个公式背后的推导过程非常优雅:令权重读取时间等于权重计算时间,消去模型参数数量,最终只剩下硬件常数和稀疏度。硬件常数在大多数 GPU 上约为 300,这是一个跨代际非常稳定的数字——从 A100 到 B100,虽然算力和内存带宽都大幅提升,但它们的比值基本保持不变。
这个公式背后的推导过程非常优雅:令权重读取时间等于权重计算时间,消去模型参数数量,最终只剩下硬件常数和稀疏度。硬件常数在大多数 GPU 上约为 300,这是一个跨代际非常稳定的数字——从 A100 到 B100,虽然算力和内存带宽都大幅提升,但它们的比值基本保持不变。
延迟的硬下限:为什么不能无限加速
理解了批量大小,就能理解为什么「快速模式」有天然的速度上限。
Reiner 在黑板上画出了延迟随批量大小变化的曲线,清晰地展示了一个关键现象:在批量大小较小时,延迟几乎不随批量变化,呈现出一条平坦的底部曲线。这条底部曲线就是延迟的硬下限。
对于给定的硬件配置,推理延迟存在一个硬性下限——这个下限等于将整个模型的所有参数从 HBM 读取到芯片所需的时间。即使用尽全部内存带宽,也无法低于这个时间。
Reiner 估算这个时间大约是 15 到 20 毫秒。他称之为「火车发车模型」:GPU 每隔 20 毫秒启动一个新批次,就像火车定时发车。如果火车没坐满,它也会按时发车;如果坐满了,多出来的乘客要等下一班。
最坏情况下,你的请求刚好在火车发车后到达,需要等 20 毫秒的下一班车,再加上 20 毫秒的处理时间,总共 40 毫秒。这就是延迟的下限。
所以,当你购买「快速模式」时,你实际上是在支付更小的批量大小——每批处理的序列更少,你的请求可以更快地被处理,但每个 token 的推理成本更高。这就是为什么快速模式的价格是普通模式的 6 倍,而速度只提升了 2.5 倍——成本和速度之间不是线性关系。
至于「慢速模式」——如果你愿意等更久,能不能获得更低的成本?Reiner 的回答是否定的。因为一旦批量大小超过了最优值,成本曲线已经趋于平缓,由计算时间主导。再增大批量大小,也无法进一步摊薄 KV Cache 和计算的成本——它们都是每个序列独有的,无法被批量摊薄。
KV Cache:推理中无法消除的内存负担
要理解大模型推理,就必须理解 KV Cache。这个概念对于非技术读者来说可能有些抽象,但它是理解整个推理成本结构的关键。
在自回归生成过程中,模型每生成一个新 token,都需要通过注意力机制「查看」所有之前的 token。但模型并不是重新计算之前 token 的表示,而是将它们的关键(Key)和值(Value)向量缓存起来,这就是 KV Cache。每次生成新 token 时,模型只需要读取这些缓存的向量,而不需要重新处理整个历史序列。
Reiner 在黑板上画出了自回归解码的过程:一个张量在序列长度方向不断增长,每一步解码都需要对整个序列执行完整的矩阵乘法,同时新 token 通过注意力机制检索所有历史 token 的内部表示。
KV Cache 的大小取决于三个因素:批量大小、上下文长度、以及每个 token 的字节数。它占据了推理过程中大量的内存带宽。
KV Cache 有一个关键特性:它无法被批量摊薄,也无法通过管道并行来分片。每个序列的 KV Cache 是唯一的,这意味着无论你怎么优化并行策略,KV Cache 的内存需求始终是一个硬约束。
这也是为什么当上下文长度增长时,推理会从计算受限转变为内存带宽受限。Reiner 通过 Gemini 3.1 的 API 定价验证了这一点。
API 定价中的架构密码
Gemini 3.1 的 API 定价有一个有趣的设计:如果上下文长度超过 20 万 token,价格会上涨 50%。为什么是 50%?为什么是 20 万?这看起来只是一个商业决策,但 Reiner 从中读出了架构层面的信息。
Reiner 通过数学推导发现,20 万 token 恰好对应了内存带宽时间与计算时间的交叉点。在这个点之前,推理主要由计算主导;超过这个点,KV Cache 的内存带宽需求开始主导成本。50% 的涨价幅度,正是交叉点两侧成本差异的体现。
「这很有趣——他们通过 API 定价泄露了这么多架构信息。」Dwarkesh 感叹道。
「你必须把价格定得接近你的实际成本,否则别人就可以用脚本套利你。」Reiner 回答。
输入输出价格的差异也揭示了更多信息。Reiner 观察到,输出 token 的价格大约是输入 token 的 5 倍。这意味着预填充(prefill)阶段是计算受限的——所有 token 并行处理,内存带宽被有效摊薄;而生成的解码(decode)阶段是内存带宽受限的——每生成一个 token 都需要读取全部权重和 KV Cache。
缓存定价则进一步揭示了内存层级。Reiner 分析发现,5 分钟的缓存对应 DDR 内存的排水时间,1 小时的缓存则对应闪存甚至机械硬盘。不同存储介质的容量与带宽之比,决定了它们在缓存策略中的角色。
MoE 与机架通信:为什么单机架是天然边界
DeepSeek V3 有 256 个专家,每次推理只激活 8 个。这种混合专家(MoE)架构如何映射到 GPU 集群上?这是一个既涉及模型架构又涉及硬件拓扑的问题。
标准做法是专家并行——不同的专家分布到不同的 GPU 上。在 Blackwell 机架(72 块 GPU)上部署 256 个专家,每个 GPU 存放约 4 个专家。
但这里有一个关键的通信问题:当 token 进入模型时,路由层决定将它发送到哪些专家。这意味着任何 GPU 都可能向任何其他 GPU 发送数据——这是一个全对全(all-to-all)的通信模式。
NVIDIA 的机架设计恰好完美匹配这种模式:所有 GPU 通过机架内部的 NVLink 网络两跳即可互访。但一旦跨出机架,带宽骤降约 8 倍。
「如果你想在两个机架之间部署 MoE 层,一半的 token 需要离开本机架去往另一个机架,这就会成为严重的瓶颈。」Reiner 说。
这就是为什么 MoE 推理必须限制在单个 Scale-Up 域内。也是为什么 NVIDIA 不断增大 Scale-Up 域的规模——从 Hopper 的 8 卡,到 Blackwell 的 72 卡,再到 Rubin 的 576 卡。每一次迭代都在扩大单机架的通信能力,让 MoE 层可以在更大的范围内保持高效的全对全通信。
机架设计本身也面临物理极限。Reiner 揭示了一个令人惊讶的事实:限制机架规模的不是电力或散热,而是线缆的物理空间。「 literally 就是放线缆的物理空间在限制你。」他说。现代机架已经将所有物理参数推到了极限——重量、空间、电力、散热,每一项都在争夺有限的资源。
管道并行:推理中的免费午餐?
管道并行(pipeline parallelism)将模型的不同层分布到不同的机架上。Reiner 详细分析了它在推理和训练中的不同表现,揭示了这种策略的局限性和适用场景。
在推理中,管道并行几乎是一顿免费的午餐——它不增加延迟,也不影响批量大小,唯一的效果是减少了每个机架需要存储的权重数量。因为模型的不同层在不同机架上依次处理,每个机架只需要存储自己那一层的权重。这意味着你可以用更少的内存来运行更大的模型。
但管道并行对 KV Cache 无效。Reiner 推导出了一个关键结论:增加管道阶段数可以减少权重的内存占用,但 KV Cache 的内存占用保持不变。这是因为更多的管道阶段意味着更多的序列同时在飞行中,这两个效应恰好抵消。
「你既不能通过批量大小来摊薄 KV Cache,也不能通过管道阶段来分片它。两个方面都不行。」
在实践中,前沿实验室在推理时主要使用专家并行,管道并行用得很少——可能只用 2 个阶段来减轻权重存储压力,但不会更多。
训练与推理成本的平衡
Reiner 最引人深思的推导之一,是关于预训练、RL 和推理三者之间计算成本平衡的估算。这个推导将抽象的 AI 进步问题还原为简单的等式,展现了第一性原理思考的力量。
他的核心论点是:当你要最小化总成本(训练成本加推理成本)时,最优解通常出现在各项成本大致相等的地方。这是一个在优化问题中反复出现的规律——当一条下降曲线和一条上升曲线相交时,总和的最小值往往出现在交点附近。
基于这个假设,他推导出了一个令人惊讶的结论:一个模型在预训练中消耗的 token 数量,应该大致等于它在 RL 阶段消耗的 token 数量,也大致等于它在推理阶段被用户消耗的 token 总量。
用实际数字来估算:假设一个前沿模型每秒处理约 5000 万 token,部署两个月,推理 token 总量约为 200 万亿。而 Chinchilla 缩放定律推荐的预训练 token 数量约为 2 万亿。
这意味着当前前沿模型相对于 Chinchilla 最优值被过度训练了约 100 倍。
「如果你认为 OpenAI 也意识到了这一点,而他们服务一定数量的 token 每秒,那就能反推出 GPT-5 的预训练数据量——即使误差 50%,这种从第一性原理推导出的数量级本身就令人震撼。」
长上下文的死胡同?
为什么所有前沿模型的上下文长度都停滞在 10 到 20 万 token,不再增长?从 GPT-3 的约 2K,到 GPT-4 的约 128K,再到如今各大模型的 10-20 万 token,这个增长趋势似乎已经停滞。
Reiner 的分析给出了清晰的答案:长上下文有两个成本——内存带宽成本和计算成本。计算成本的增长斜率被基本原理限制得很低,而内存带宽成本才是真正的主导因素。
稀疏注意力机制(sparse attention)可以提供平方根级别的改善,但过度稀疏会损害模型质量。DeepSeek 已经发表了稀疏注意力的方案,但 Reiner 认为这不足以支撑百万 token 级别的上下文。
「如果 Dario Amodei 说的对——上下文学习足够实现 AGI,不需要持续学习——那你就必须把上下文长度推到 1 亿 token 级别,相当于一个员工和你一起工作一个月。但目前我看不出解决内存墙的有效路径。」
HBM 的带宽增长已经放缓,而上下文长度的停滞恰好说明 10 到 20 万 token 是一个成本平衡点。再往上,成本将变得不可承受。
神经网络与密码学的隐秘联系
在黑板讲座的最后,Reiner 和 Dwarkesh 讨论了一个出人意料的交叉领域:神经网络与密码学的关系。这段讨论展示了 Reiner 作为架构师的跨领域思考能力。
Reiner 在他的博客中曾指出,密码学协议和神经网络在高层架构上有着惊人的相似性——两者都需要将输入信息在所有维度上进行混合(mixing)。密码学是为了让每个输入的微小变化都彻底打乱输出(雪崩效应),而神经网络是为了让每个输入都能影响最终的理解。
「密码学试图将具有结构的信息伪装成随机,而神经网络试图从看似随机的数据(蛋白质序列、DNA、杂乱文本)中提取更高层的结构。它们使用相似的混合机制,但目标完全相反。」
Reiner 还介绍了可逆网络(RevNets)——一种将密码学中的 Feistel 网络结构引入神经网络的技术。通过这种结构,整个神经网络变为可逆的,可以在反向传播时完全重计算激活值,从而消除训练过程中的激活存储需求。
「这恰好是 KV Cache 策略的反面——KV Cache 是用更多内存来节省计算,而可逆网络是用更多计算来节省内存。在当前硬件条件下,前者通常更有利可图。」
结语
这期播客最有力的地方在于,它将「AI 为什么是现在这个样子」这个宏大问题,还原为一系列可量化、可推导的硬件约束。
批量大小决定了推理的经济学。内存带宽决定了延迟的下限。KV Cache 是推理中无法消除的负担。API 定价泄露了架构决策。训练与推理成本的平衡揭示了模型规模的真实约束。
Reiner 用一块黑板和两个多小时证明了一件事:理解 AI 的进步,不能只看模型架构和数据规模。底层硬件的物理极限——内存带宽、线缆密度、机架通信拓扑——才是真正塑造 AI 发展轨迹的力量。
当你下次看到 Claude 的「快速模式」或 Gemini 的上下文定价时,你看到的不再只是一个商业决策。你看到的是一块黑板上的公式,是内存带宽与计算时间的博弈,是物理世界对数字世界的约束。
这期讲座也提醒我们,AI 的发展并非单纯由算法创新驱动。硬件的每一次迭代——更大的 Scale-Up 域、更快的内存带宽、更高效的并行策略——都在为模型架构的可能性划定新的边界。理解这些边界,才能理解 AI 的现在,也能更好地预见它的未来。
Reiner 的黑板讲座之所以令人震撼,不仅在于他揭示了具体的技术细节,更在于他展示了一种思考方式:从第一性原理出发,用简单的公式和图表,推导出复杂的系统行为。这种思维方式,或许比任何具体的技术结论都更有价值。
内容来源:”How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope”丨Dwarkesh Patel
夜雨聆风