乐于分享
好东西不私藏

硅谷最硬核的 AI 讲座:用黑板方程推导出 DeepSeek 的必然崛起的原因

硅谷最硬核的 AI 讲座:用黑板方程推导出 DeepSeek 的必然崛起的原因

数据来源:U.S. Center for AI Standards and Innovation,2026年4月
很多人以为,大模型的竞争是一场看谁能买到更多 GPU、砸出更多参数的”军备竞赛”。
但前 Google TPU 架构师、MatX CEO Reiner Pope 在黑板前,用几个纯粹的物理方程,把硅谷所有头部 AI 实验室(OpenAI、Anthropic、Google)的底牌全掀开了。
结合我在阿里做 AI 基础设施超过十年的经验,今天我想用我的方式,替大家把这本算力账本算清楚:为什么 GPT-5 被过度训练了 100 倍?DeepSeek 又是怎么把硅谷巨头逼到墙角的?中国 AI 团队的突围路径到底在哪里
废话不多说,开聊。

GPT-5 被”过度训练”了 100 倍?这不是浪费,是精明到极致的商业决策

先抛一个让所有人都意外的结论:今天最顶尖的前沿模型,训练数据量已经超过理论最优值约 100 倍。
按照经典的 Chinchilla 比例法则,模型参数量和训练 Token 数应该同步增长。照这个法则,GPT-5 早就过了”最优训练点”,继续喂数据是在浪费钱。
但 Reiner 用一个等式证明了,这恰恰是最精明的商业决策。
逻辑是这样的:把预训练成本、RL 成本、推理成本在全生命周期内拉平。一个模型每秒服务 5000 万 token、持续运行两个月,它一辈子产生的推理 token 总量,和大型预训练的数据规模在同一个数量级。
三者均衡的那个点,就是最优解。

💡 大模型商业模式的本质,是用极其高昂的”一次性训练成本”,去无限摊薄”单次推理的边际成本”。

这个逻辑解释了一切。DeepSeek-R1 为什么要把 RL 做到极致?Anthropic 为什么舍得在训练上烧那么多钱?都是在用今天的训练算力,换未来无数次推理的成本优势。
当你的系统每天处理数亿次用户请求,训练阶段多花的每一分钱,都会在推理端被摊薄成小数点后好几位。这笔账,算过的人都会继续砸。

Batch Size 不是技术参数,是决定 AI 公司生死的商业变量

这是 Reiner 整场讲座里最被低估的一个洞见。
工程师们通常把 Batch Size 当成系统调优的旋钮,调大调小都行。但 Reiner 算出了一个让人震惊的数字:如果不做 Batching、让单个用户独占推理资源,成本会高出整整 1000 倍。
不是 10 倍,是 1000 倍。
这意味着什么?AI 公司的单位经济学,根本不取决于模型有多强,而取决于能把多少用户”挤进同一辆车”。
我把这个模型叫做”20ms 列车系统“——这是理解整个 AI 推理经济学最直觉的方式:
推理系统,本质上是一个高频发车的列车网络。每隔约 20ms,一班列车准时出发,不等人。
车越满,成本越低(Batch 越大,每个 token 分摊的成本越低)
车空跑就是在烧钱(低利用率意味着内存带宽在空转)
车不等人(延迟有物理下界,多花钱也买不到更快的发车频率)
这里还藏着一个更残酷的竞争逻辑:当 Batch 足够大、内存带宽被充分利用时,所有 AI 公司的推理成本都会向同一个物理下界收敛。届时 infra 能力不再是护城河,真正的竞争只有一个维度——谁能稳定把车填满。
谁拥有高频、高黏性的用户场景,谁就拥有最低的推理成本,谁就赢了这场战争。

💡 大模型的单位经济学,不取决于模型有多强,而取决于你能把多少用户”挤进同一辆车”。

一张 API 定价表,就是一份技术情报

很多人以为,给 AI 服务多花钱,性能就能无限提升。这是错觉。
Reiner 指出了一个绕不过去的物理硬约束:无论 Batch Size 降到多低,单次推理的延迟都不可能低于”将模型全部参数从显存完整读取一遍的时间”。这个下界是刻在物理定律里的,不是工程问题。
一旦理解这一点,AI 产品的所有定价谜题就全部解开了。
Claude 的 Fast Mode 为什么敢卖 6 倍高价?为了极致压低延迟,必须缩小 Batch Size,让极少数用户独占整块 GPU 的物理内存带宽。卖的是独占权,不是魔法。
为什么输出 token 比输入贵 5 倍?输入(prefill)是一辆批量上客的大巴;输出(decode)完全被内存带宽卡住,是一个人独占一个座位。成本结构就是不同。
Gemini 200K token 以上为什么贵 50%?Reiner 反推出这个定价拐点对应的 KV 缓存大约是 2KB/token,直接暴露了其底层注意力架构的设计参数。这家公司可能没想到,自己的定价策略成了一份公开的技术说明书。

💡 API 的定价,永远不是纯粹的市场博弈,而是底层硬件物理架构的清晰投影。一张定价表,就是一份技术情报。

你花钱”缓存 1 小时”,存的其实是机械硬盘

这是原文里最容易被跳过、但对产品设计最有杀伤力的一个细节。
Claude、Gemini 对 KV Cache 有两档定价:缓存 5 分钟和缓存 1 小时,差价悬殊。很多产品经理以为这只是商业定价策略,背后其实是一个纯粹的物理现实。
Reiner 引入了一个概念:Drain Time(存储容量 ÷ 读写带宽),也就是把整块存储读写一遍需要多长时间。每种存储介质都有自己的 Drain Time,精确对应一个定价档位:
存储层
Drain Time
对应定价档位
HBM(显存)
~20 毫秒
太贵,不单独出售
DDR(内存)
秒级
极短缓存
Flash(闪存)
分钟级
5 分钟档
机械硬盘
小时级
1 小时档
结论有点扎心:你花钱”缓存 1 小时”,存的其实是机械硬盘。你以为在享受的”高性能 AI 记忆”,时间一拉长,住的地方和你十年前那台笔记本电脑没什么区别。
对产品经理来说,这里有一个认知炸弹:“AI 长期记忆”从来不是模型能力的问题,而是存储成本的问题。所有”AI 记忆”产品,本质上都是在不同物理介质之间做权衡。不搞清楚这个,就只能在成本和延迟之间被动挨打。

DeepSeek 为什么能把硅谷逼到墙角?答案藏在一个永恒的硬件常数里

DeepSeek V3 有 2560 亿总参数,但每次推理只激活约 370 亿。外界解读为”聪明的架构创新”。Reiner 告诉你,这不是创新,这是物理逼出来的。
他在黑板上做了一个极优雅的代数移项,把模型参数放右边,硬件参数放左边,推导出了一个惊人的结论——存在一个稳定的硬件无量纲常数:

(芯片峰值 FLOPs ÷ 芯片内存带宽)× FP4 字节换算 ≈ 300

从 A100 到 H100 到 B100,算力和带宽都在暴涨,但这个常数始终稳定在 300 左右。这意味着:

最优 Batch Size ≈ 300 × 稀疏率(激活专家数 / 总专家数)

以 DeepSeek 为例,32/256 的专家激活比对应稀疏率约 1/8,最优 Batch Size 收敛在数十个序列量级,推理成本被压到极低。

💡 不是 DeepSeek 聪明地选择了 MoE 稀疏架构,是硅基硬件的演进常数强制所有人必须走向”大稀疏”。Dense 模型在大规模推理场景下,本质是反物理的。通义、文心、豆包都在悄悄转型,不是跟风,是数学逼的。

还有一个更关键的结构性约束:一个 Blackwell 机架(72 块 GPU)是 MoE 推理的天然边界。All-to-All 的专家通信在单机架内可以被高速 NVLink 完全消化,一旦跨机架,带宽立刻下降 8 倍,成本急剧上升。未来 MoE 架构的规模边界,将由互联拓扑决定,而不是参数量。

AGI 的时间线,有一段正在被一堵物理墙死死卡住

这是整场对话里最让我停下来想的一段。
Anthropic CEO Dario Amodei 说过一句话:”我们不需要持续学习就能实现 AGI,in-context learning 就够了。”
如果这是真的,推论非常残酷:一个真正等效于”和你共事一个月的 AI 同事”,需要记住整整一个月里所有的交互,大约是1 亿个 token
Reiner 给了一个清醒的物理回答:在可见的硬件路线图内,这件事做不到。
上下文窗口从 8K 扩展到 100K-200K,用了不到两年——速度飞快。但之后整整停滞了一两年,所有主流模型都卡在这个区间出不去。不是算法没跟上,是撞上了内存带宽的物理均衡点。超过这个点,每增加一倍上下文,推理成本就线性增加,经济上根本不划算。
DeepSeek 的 Sparse Attention 提供了一个真正的缓解路径,把 KV Cache 的时间复杂度从线性压到了平方根级。但这不是无限的解法——稀疏度越高,模型能”看到”的历史越少,质量就越差,有天然下限。

💡 AI 的演进,本质上是一部”如何绕开内存带宽瓶颈”的工程史。Transformer 的每一次架构迭代,都是在和同一堵物理墙做博弈。AGI 的时间线,不只取决于算法突破,也取决于这堵墙什么时候被打穿。

对做 AI 产品的人来说,结论很实际:与其等硬件解决问题,不如现在就设计出在有限上下文内运作良好的记忆架构。这也是我们在 Genomii 构建 TwinState 数字孪生记忆体系时的核心选择:不赌无限上下文,而是用结构化知识图谱和 Agentic Skills,在更小的窗口里实现更高密度的个体化记忆召回。

中国 AI 的突围路径:三层现实判断

硅谷这本账,对中国 AI 产业有三个非常直接的判断。
判断一:算力突围的关键不在单卡算力,在互联带宽 
H100 和 Blackwell 因出口管制进不来,很多人以为这是 FLOPs 的差距。但 Reiner 的分析说的是另一件事:限制长上下文能力的核心是 HBM 内存带宽,不是算力峰值。华为昇腾集群的 Scale-Up 互联域能做到多大,才是国内大模型长上下文能力的真正天花板。这是一个物理基础设施问题,不是算法问题。
判断二:谁能把 Batch 填满,谁就赢了推理端
Kimi 长文本、豆包高频场景的爆发,不是因为模型比别人强,而是因为用高频行为把并发 Batch 塞满了。推理 ROI 最极致的,永远是那些用户频率最高、场景最集中的产品。MiniMax、智谱 AI 在垂直场景的表现不输巨头,也是同一个逻辑在发挥作用。
判断三:推理端的账算不清楚,就没有下半场
国内 AI 创业者必须从第一天起,把 token 成本、KV Cache 内存占用、甚至底层存储介质的 Drain Time,当成产品设计的核心约束条件来对待。不是上线之后的优化项,而是产品定义阶段就要锁死的边界。

写在最后

大模型的上半场,比的是谁能用资本撬动更多算力。
大模型的下半场,拼的是谁能看透方程式背后的物理极限,在约束中找到高杠杆的突围路径。
Reiner Pope 的黑板上只有几个方程,却推导出了整个行业的竞争格局,乃至 AGI 的时间线。这让我想起在阿里工作时反复被验证的一个判断:真正理解物理约束的人,才能在约束中找到别人看不见的突破口。
DeepSeek 的崛起、Kimi 的长文本突破、国内推理芯片的艰难突围——不是偶然,是一批工程师把这些方程搞透之后,做出的必然选择。
不在物理规律面前心存侥幸,才是真正的第一性原理。

推荐原始内容:Dwarkesh Podcast × Reiner Pope —「The math behind how LLMs are trained and served」