硅谷最硬核的 AI 讲座:用黑板方程推导出 DeepSeek 的必然崛起的原因

数据来源：U.S. Center for AI Standards and Innovation，2026年4月

很多人以为，大模型的竞争是一场看谁能买到更多 GPU、砸出更多参数的”军备竞赛”。

但前 Google TPU 架构师、MatX CEO Reiner Pope 在黑板前，用几个纯粹的物理方程，把硅谷所有头部 AI 实验室（OpenAI、Anthropic、Google）的底牌全掀开了。

结合我在阿里做 AI 基础设施超过十年的经验，今天我想用我的方式，替大家把这本算力账本算清楚：为什么 GPT-5 被过度训练了 100 倍？DeepSeek 又是怎么把硅谷巨头逼到墙角的？中国 AI 团队的突围路径到底在哪里？

废话不多说，开聊。

GPT-5 被”过度训练”了 100 倍？这不是浪费，是精明到极致的商业决策

先抛一个让所有人都意外的结论：今天最顶尖的前沿模型，训练数据量已经超过理论最优值约 100 倍。

按照经典的 Chinchilla 比例法则，模型参数量和训练 Token 数应该同步增长。照这个法则，GPT-5 早就过了”最优训练点”，继续喂数据是在浪费钱。

但 Reiner 用一个等式证明了，这恰恰是最精明的商业决策。

逻辑是这样的：把预训练成本、RL 成本、推理成本在全生命周期内拉平。一个模型每秒服务 5000 万 token、持续运行两个月，它一辈子产生的推理 token 总量，和大型预训练的数据规模在同一个数量级。

三者均衡的那个点，就是最优解。

💡 大模型商业模式的本质，是用极其高昂的”一次性训练成本”，去无限摊薄”单次推理的边际成本”。

这个逻辑解释了一切。DeepSeek-R1 为什么要把 RL 做到极致？Anthropic 为什么舍得在训练上烧那么多钱？都是在用今天的训练算力，换未来无数次推理的成本优势。

当你的系统每天处理数亿次用户请求，训练阶段多花的每一分钱，都会在推理端被摊薄成小数点后好几位。这笔账，算过的人都会继续砸。

Batch Size 不是技术参数，是决定 AI 公司生死的商业变量

这是 Reiner 整场讲座里最被低估的一个洞见。

工程师们通常把 Batch Size 当成系统调优的旋钮，调大调小都行。但 Reiner 算出了一个让人震惊的数字：如果不做 Batching、让单个用户独占推理资源，成本会高出整整 1000 倍。

不是 10 倍，是 1000 倍。

这意味着什么？AI 公司的单位经济学，根本不取决于模型有多强，而取决于能把多少用户”挤进同一辆车”。

我把这个模型叫做”20ms 列车系统“——这是理解整个 AI 推理经济学最直觉的方式：

推理系统，本质上是一个高频发车的列车网络。每隔约 20ms，一班列车准时出发，不等人。

车越满，成本越低（Batch 越大，每个 token 分摊的成本越低）

车空跑就是在烧钱（低利用率意味着内存带宽在空转）

车不等人（延迟有物理下界，多花钱也买不到更快的发车频率）

这里还藏着一个更残酷的竞争逻辑：当 Batch 足够大、内存带宽被充分利用时，所有 AI 公司的推理成本都会向同一个物理下界收敛。届时 infra 能力不再是护城河，真正的竞争只有一个维度——谁能稳定把车填满。

谁拥有高频、高黏性的用户场景，谁就拥有最低的推理成本，谁就赢了这场战争。

💡 大模型的单位经济学，不取决于模型有多强，而取决于你能把多少用户”挤进同一辆车”。

一张 API 定价表，就是一份技术情报

很多人以为，给 AI 服务多花钱，性能就能无限提升。这是错觉。

Reiner 指出了一个绕不过去的物理硬约束：无论 Batch Size 降到多低，单次推理的延迟都不可能低于”将模型全部参数从显存完整读取一遍的时间”。这个下界是刻在物理定律里的，不是工程问题。

一旦理解这一点，AI 产品的所有定价谜题就全部解开了。

Claude 的 Fast Mode 为什么敢卖 6 倍高价？为了极致压低延迟，必须缩小 Batch Size，让极少数用户独占整块 GPU 的物理内存带宽。卖的是独占权，不是魔法。

为什么输出 token 比输入贵 5 倍？输入（prefill）是一辆批量上客的大巴；输出（decode）完全被内存带宽卡住，是一个人独占一个座位。成本结构就是不同。

Gemini 200K token 以上为什么贵 50%？Reiner 反推出这个定价拐点对应的 KV 缓存大约是 2KB/token，直接暴露了其底层注意力架构的设计参数。这家公司可能没想到，自己的定价策略成了一份公开的技术说明书。

💡 API 的定价，永远不是纯粹的市场博弈，而是底层硬件物理架构的清晰投影。一张定价表，就是一份技术情报。

你花钱”缓存 1 小时”，存的其实是机械硬盘

这是原文里最容易被跳过、但对产品设计最有杀伤力的一个细节。

Claude、Gemini 对 KV Cache 有两档定价：缓存 5 分钟和缓存 1 小时，差价悬殊。很多产品经理以为这只是商业定价策略，背后其实是一个纯粹的物理现实。

Reiner 引入了一个概念：Drain Time（存储容量 ÷ 读写带宽），也就是把整块存储读写一遍需要多长时间。每种存储介质都有自己的 Drain Time，精确对应一个定价档位：

存储层	Drain Time	对应定价档位
HBM（显存）	~20 毫秒	太贵，不单独出售
DDR（内存）	秒级	极短缓存
Flash（闪存）	分钟级	5 分钟档
机械硬盘	小时级	1 小时档

结论有点扎心：你花钱”缓存 1 小时”，存的其实是机械硬盘。你以为在享受的”高性能 AI 记忆”，时间一拉长，住的地方和你十年前那台笔记本电脑没什么区别。

对产品经理来说，这里有一个认知炸弹：“AI 长期记忆”从来不是模型能力的问题，而是存储成本的问题。所有”AI 记忆”产品，本质上都是在不同物理介质之间做权衡。不搞清楚这个，就只能在成本和延迟之间被动挨打。

DeepSeek 为什么能把硅谷逼到墙角？答案藏在一个永恒的硬件常数里

DeepSeek V3 有 2560 亿总参数，但每次推理只激活约 370 亿。外界解读为”聪明的架构创新”。Reiner 告诉你，这不是创新，这是物理逼出来的。

他在黑板上做了一个极优雅的代数移项，把模型参数放右边，硬件参数放左边，推导出了一个惊人的结论——存在一个稳定的硬件无量纲常数：

（芯片峰值 FLOPs ÷ 芯片内存带宽）× FP4 字节换算 ≈ 300

从 A100 到 H100 到 B100，算力和带宽都在暴涨，但这个常数始终稳定在 300 左右。这意味着：

最优 Batch Size ≈ 300 × 稀疏率（激活专家数 / 总专家数）

以 DeepSeek 为例，32/256 的专家激活比对应稀疏率约 1/8，最优 Batch Size 收敛在数十个序列量级，推理成本被压到极低。

💡 不是 DeepSeek 聪明地选择了 MoE 稀疏架构，是硅基硬件的演进常数强制所有人必须走向”大稀疏”。Dense 模型在大规模推理场景下，本质是反物理的。通义、文心、豆包都在悄悄转型，不是跟风，是数学逼的。

还有一个更关键的结构性约束：一个 Blackwell 机架（72 块 GPU）是 MoE 推理的天然边界。All-to-All 的专家通信在单机架内可以被高速 NVLink 完全消化，一旦跨机架，带宽立刻下降 8 倍，成本急剧上升。未来 MoE 架构的规模边界，将由互联拓扑决定，而不是参数量。

AGI 的时间线，有一段正在被一堵物理墙死死卡住

这是整场对话里最让我停下来想的一段。

Anthropic CEO Dario Amodei 说过一句话：”我们不需要持续学习就能实现 AGI，in-context learning 就够了。”

如果这是真的，推论非常残酷：一个真正等效于”和你共事一个月的 AI 同事”，需要记住整整一个月里所有的交互，大约是1 亿个 token。

Reiner 给了一个清醒的物理回答：在可见的硬件路线图内，这件事做不到。

上下文窗口从 8K 扩展到 100K-200K，用了不到两年——速度飞快。但之后整整停滞了一两年，所有主流模型都卡在这个区间出不去。不是算法没跟上，是撞上了内存带宽的物理均衡点。超过这个点，每增加一倍上下文，推理成本就线性增加，经济上根本不划算。

DeepSeek 的 Sparse Attention 提供了一个真正的缓解路径，把 KV Cache 的时间复杂度从线性压到了平方根级。但这不是无限的解法——稀疏度越高，模型能”看到”的历史越少，质量就越差，有天然下限。

💡 AI 的演进，本质上是一部”如何绕开内存带宽瓶颈”的工程史。Transformer 的每一次架构迭代，都是在和同一堵物理墙做博弈。AGI 的时间线，不只取决于算法突破，也取决于这堵墙什么时候被打穿。

对做 AI 产品的人来说，结论很实际：与其等硬件解决问题，不如现在就设计出在有限上下文内运作良好的记忆架构。这也是我们在 Genomii 构建 TwinState 数字孪生记忆体系时的核心选择：不赌无限上下文，而是用结构化知识图谱和 Agentic Skills，在更小的窗口里实现更高密度的个体化记忆召回。

中国 AI 的突围路径：三层现实判断

硅谷这本账，对中国 AI 产业有三个非常直接的判断。

判断一：算力突围的关键不在单卡算力，在互联带宽

H100 和 Blackwell 因出口管制进不来，很多人以为这是 FLOPs 的差距。但 Reiner 的分析说的是另一件事：限制长上下文能力的核心是 HBM 内存带宽，不是算力峰值。华为昇腾集群的 Scale-Up 互联域能做到多大，才是国内大模型长上下文能力的真正天花板。这是一个物理基础设施问题，不是算法问题。

判断二：谁能把 Batch 填满，谁就赢了推理端

Kimi 长文本、豆包高频场景的爆发，不是因为模型比别人强，而是因为用高频行为把并发 Batch 塞满了。推理 ROI 最极致的，永远是那些用户频率最高、场景最集中的产品。MiniMax、智谱 AI 在垂直场景的表现不输巨头，也是同一个逻辑在发挥作用。

判断三：推理端的账算不清楚，就没有下半场

国内 AI 创业者必须从第一天起，把 token 成本、KV Cache 内存占用、甚至底层存储介质的 Drain Time，当成产品设计的核心约束条件来对待。不是上线之后的优化项，而是产品定义阶段就要锁死的边界。

写在最后

大模型的上半场，比的是谁能用资本撬动更多算力。

大模型的下半场，拼的是谁能看透方程式背后的物理极限，在约束中找到高杠杆的突围路径。

Reiner Pope 的黑板上只有几个方程，却推导出了整个行业的竞争格局，乃至 AGI 的时间线。这让我想起在阿里工作时反复被验证的一个判断：真正理解物理约束的人，才能在约束中找到别人看不见的突破口。

DeepSeek 的崛起、Kimi 的长文本突破、国内推理芯片的艰难突围——不是偶然，是一批工程师把这些方程搞透之后，做出的必然选择。

不在物理规律面前心存侥幸，才是真正的第一性原理。

推荐原始内容：Dwarkesh Podcast × Reiner Pope —「The math behind how LLMs are trained and served」