前谷歌TPU架构师:AI 的真瓶颈不是算力,是存储
播客:Dwarkesh Podcast,”Reiner Pope – The math behind how LLMs are trained and served”嘉宾:Reiner Pope,MatX CEO,前 Google TPU 架构师形式:两小时黑板讲座,全程公式推导整理: 大宇
引言
这场两小时的访谈里,Reiner Pope 在黑板上一步一步把训练和推理背后的物理学推了出来。他的判断对理解 AI 产业链——尤其是芯片、内存、互联设备——非常关键。
但原文非常艰深,普通读者读起来会很疲劳。
所以这篇文章在不改变 Reiner 任何原意的前提下,做两件事:
第一,用大白话重新表达。 第二,从投资视角提炼重点。
文章按三段展开:现在是什么情况、底层原理是什么、未来会影响到哪些产业。
*
推荐将本号“加入星标”,以不错过隐藏宝石——本文非今天封面文章,也未纳入本人原创的《AI投资地图》系列文章,但对投资视角补充仍极有价值。
一、先用一句话讲清楚
Reiner 这场讲座最核心的判断是:
AI 真正的瓶颈不是算力,是搬数据的速度。这个瓶颈短期内没有解。
如果你只想记住一件事,就是这一句。后面几乎所有的产业含义都是从这里推出来的。
为什么这件事重要?因为整个 AI 产业链的钱往哪流、谁吃肉谁喝汤,取决于”瓶颈在哪里”。如果瓶颈是算力,那 GPU 厂家是绝对赢家;如果瓶颈是搬数据,那钱会被另一拨公司分走——HBM 内存、机架间的互联、线缆、交换机、液冷、电源。
而 Reiner 给出的答案非常明确:瓶颈是后者。这是他从大厂的资本支出结构里能直接看出来的——按业内估计,他们今年大约一半的钱都花在内存上。
二、算力够用了,缺的是「搬运工」
要理解为什么算力不缺、内存才缺,先打个比方。
把 GPU 想象成一个超级会算账的会计。给他一摞账本(模型参数),他能很快算完。问题是:账本不在他手边,存在仓库里。每次要算账,都得有人把账本从仓库搬到他桌上,他算完再放回去。
这里有两个时间:
-
算账时间:会计算多快 -
搬运时间:账本来回搬多慢
过去几年大家都在拼命让会计算得更快——这就是 GPU 算力的提升。但 Reiner 在黑板上算了一笔账:搬运速度涨得没那么快,反而成了瓶颈。
具体一点:
NVIDIA 每代 GPU 的算力大约翻一倍,内存带宽(搬运速度)也大约翻一倍,所以”算力 ÷ 带宽”这个比值很多年来一直稳定在 300 左右。这意味着会计每收到一份账本,得算大约 300 次才划算——否则搬运的时间比算账还长,会计大半时间在等数据。
那怎么办?答案是 批量处理——一次把许多用户的请求放在一起算,让一份账本被反复使用。这就是为什么云厂商愿意把成百上千个用户挤在同一次推理里:搬一次账本,算 2000 个用户的题。单看,这能把成本压低到不批量处理时的千分之一。
理解了这一层,才能就理解 ChatGPT、Claude、Gemini 这些产品的整个商业模式:它们的低价不是给每个人的补贴,是物理学上能实现的。
这件事的第一个投资含义
HBM 内存是 AI 产业链最确定的长期需求。
Reiner 在播客里直接讲:行业里 Hyperscaler 把一半的资本支出花在内存上,这是真实发生的。智能手机内存今年涨价、消费电子销量被压低,原因之一就是 AI 厂商在抢内存。
而且他强调一句很重的话:「HBM 没有什么大的好转空间」——意思是,这个供需紧张不是临时的,是结构性的。
所以围绕 HBM 的供应链——上游的存储颗粒原厂、HBM 封装、相关测试设备——都属于这个长期叙事的一部分。这一点不需要太多想象力。
三、机架越大越值钱:真正的护城河升级
第二个反直觉的事实:单卡再强,也敌不过把更多卡塞进同一个机架。
为什么?这要从 MoE(Mixture of Experts,混合专家)模型说起。
MoE 是当前主流的模型架构(DeepSeek、Gemini、传闻里的 GPT-5 都是这种结构)。它的工作方式是:模型里有一堆”专家”,每来一个 token,路由器决定把它发给其中几个专家处理。比如 DeepSeek 有 256 个专家,每次只激活 32 个。
这种结构有个麻烦:任何一个 GPU 都可能要把数据发给任何一个其他 GPU。这种「人人对人人」的通信模式,对网络要求极高。
NVIDIA 的解决方案是:把许多 GPU 装在同一个机架里,机架内部用一种叫 NVLink 的高速通道互联。机架内部通信很快,机架之间的通信要慢 8 倍。
所以工业实践里有一条铁律:MoE 模型的整个专家层必须装在同一个机架内。一旦跨机架,速度就崩了。
这就解释了为什么 NVIDIA 这几年的真正进步,不是单卡 GPU 的算力,而是机架的扩容:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
Reiner 说,从 Hopper 到 Blackwell 的跳跃,主要是产品决策(把”托盘”改成”机架”形态);但从 Blackwell 到 Rubin 这一跳,是真正的物理工程突破。
为什么不能直接做更大的机架?
这里有个被低估的事实。Reiner 在播客里讲:现代机架的边界不是”放不下更多 GPU”,而是几个物理约束同时拉满:
-
供电:每机架的电力密度 -
散热:液冷的极限 -
重量:金属支架要承受几吨设备,但加金属又会更重 -
线缆密度:这是最容易被忽视的一项
最后一点很关键。机架里看似空间充足,但要把 500 个 GPU 互联起来需要拉的线缆数量、走线密度、弯折半径,已经接近物理极限。
Reiner :”前沿 AI 集群目前最硬的瓶颈之一,是线材怎么布。“
这件事的第二个投资含义
机架升级这个故事,受益的不只是 NVIDIA 自己。整个机架的物料供应链都在被重新定义:
-
互联:机架内的高速铜缆和连接器 -
交换机:用于把更多 GPU 串起来的网络芯片 -
机架机械:能撑住几吨重量、有足够走线密度的物理设计 -
液冷:当一个机架功率从几十千瓦冲向上百千瓦,风冷已经撑不住 -
电源:高密度供电、电源转换效率
这一波从 8 卡 → 72 卡 → 500 卡的扩张里,每一个组件都在重新洗牌。这也是为什么很多原本”水电煤”角色的供应商——做液冷的、做电源管理的、做电力基础设施的——估值会被显著重估。
四、为什么模型从 GPT-4 开始「停滞」了三年
这个问题 Dwarkesh 直接问了:GPT-4 在 2023 年前后传闻就有 1 万亿参数,之后三年模型规模并没有显著突破,为什么?
直觉答案是「内存放不下更大的模型」——但 Reiner 的回答是:不对,真正的限制是内存带宽。
容量问题其实有解。可以把模型按层切开放到不同机架上(叫做”流水线并行”),多个机架接力跑,容量就被绕过去了。
但带宽不行。搬权重的速度 = 一个机架内的总带宽。带宽来自哪里?来自机架内每张卡的并行加载。机架越大,并行的卡越多,加载越快。
所以真正决定模型能做多大、跑多快的,不是 HBM 容量,而是「机架级”的并行带宽。
而过去三年,机架从 8 卡升到 72 卡,整整 9 倍。这才是为什么最近半年才开始有显著更大的模型出来——不是没人想做,而是物理硬件刚刚才允许这件事。
这也回答了一个市场上常见的疑问:为什么 Gemini 系列在某些方面长期领先? Reiner 的判断是:Google 的 TPU pod 一直拥有非常大的机架级互联域,他们更早享受到带宽红利。
五、稀疏度是「纯收益」:MoE 不是噱头
许多人对 MoE 有个朴素的怀疑:每次只用一小部分参数,会不会牺牲模型质量?
Reiner 的回答是:从系统经济学的角度,提高稀疏度(只激活更小比例的参数)是纯收益。
为什么?因为:
-
计算时间下降(激活的参数少了) -
总参数量上升 → 内存容量需求增加,但靠批量处理摊销 -
唯一的天花板是「用户够不够多塞满批次」
唯一需要担心的是模型质量。引用一篇早期论文,老一代的 MoE 技术里,要 64 倍参数才能换 4 倍等效模型——这个比例听起来很糟糕。但 DeepSeek 在 2024 年提出的 fine-grained MoE(细粒度专家)大幅改善了这条曲线。
Reiner 原话:”只要还有用户可以填进批次,你就应该继续提高稀疏度。“
这件事的第三个投资含义
模型架构的演进方向已经明确了:更稀疏、更细粒度的 MoE,加上更大的总参数量。
这有几个推论:
第一,这条路对 NVIDIA 这种大算力 + 大带宽 + 大机架的硬件配置非常友好——所以 GPU 在训练侧的护城河没有问题。
第二,DeepSeek 在 MoE 算法层面做出的实际贡献,远比”低成本训出 GPT-4″这个表面新闻要重要——他们打开了一个让前沿模型继续往下走的算法路径。这个事实在中国 AI 产业的国际地位评估里,其实仍被低估了。
第三,张量并行(早期很火的一种切分方式)已经过气。专家越来越小,没必要再把一个专家切到多张卡上。这意味着行业里围绕”如何切大模型”的工程方向正在收敛。
六、推理需求 ≈ 全部预训练数据量
这是整场访谈里最让人停下来想想的结论。
经典的 Chinchilla 缩放法则告诉我们:模型参数和训练数据应该按 1:20 的比例搭配,这是预训练经济学的最优解。
但 Reiner 指出:现代 frontier 模型不再只考虑预训练成本,而是要在三段成本之间做平衡:
-
预训练:训练一次基础模型 -
强化学习(RL):让模型学会”思考”和”做任务” -
推理:模型部署后给用户用
如果三段成本要大致平衡(这是经济学上的最优策略),可以反推出一个数字:当前前沿模型的预训练数据量大约是 Chinchilla 推荐值的 100 倍。
也就是说,模型不是按”训练效率最高”的方式训出来的,而是按”训得稍微过头一点,省下推理时长期的运行成本”来训的。这就是所谓的”过度训练”(over-training)。
更进一步,Reiner 推出了一个让人震撼的等式:
每一个前沿模型在它的生命周期里产出的 tokens 数量,应该大致等于它训练时吃过的 tokens 数量。
而预训练数据近似就是「人类全部知识」。所以每代前沿模型都应该在它两个月的服役期里,吐出与人类全部知识等量的 token。
也就是,如果三段成本要平衡,token 数自然就该这么配。这个等式可以用于:
第一,估算 frontier 模型的真实推理流量。Reiner 在播客里直接做了这个反推——假设全球流量 5 千万 token/秒,模型服役两个月,反推出推理 token 总量约 200 万亿,再对照 100B 激活参数的 Chinchilla 推荐值是 2 万亿——得出”现代模型 over-trained 约 100 倍”的判断。这个 100 倍是个非常重要的数字,意味着 Scaling Law 时代已经过去了,进入了”过度训练换推理便宜”的新范式。
第二,估算推理市场的真实规模。如果每代前沿模型在服役期产生 200 万亿 token,全球有几家 frontier lab 同时在服役,再考虑非 frontier 的中小模型——总推理 token 量级是个天文数字。这就是为什么 Reiner 自己创办 MatX 做推理芯片,为什么 Cerebras、Groq 这些公司有真实市场空间,为什么 AMD 在推理侧的故事是真的。
第三,反推单 token 的经济价值。如果一个模型生命周期内吐出 200 万亿 token,OpenAI 这家公司值千亿美元——意味着市场认为每个 token 值几分之一美分。这个数字反过来又能用来交叉验证 API 定价的合理性。
它让我们了解”训练侧 vs 推理侧”的真实比例。
过去几年市场叙事是”训练驱动一切”——更多公司要训自己的大模型,所以 GPU 卖爆。但 Reiner 这个推论给了一个不同的图景:预训练只占总算力成本的 1/3,推理才是大头。
这件事的第四个投资含义
推理需求的体量,比大多数人想象的要大得多。
ChatGPT 出来之后,市场原本以为算力需求大增是「训练驱动」的——更多公司要训自己的大模型。但 Reiner 这个推论给出的是另一个图景:真正的算力大头在推理端,不在训练端。预训练只占总成本的三分之一。
这有几个直接含义:
第一,专门做推理的芯片公司有真实的市场空间。Reiner 自己创办的 MatX 就是干这个的——他不是在做”NVIDIA 的备胎”,而是在赌”推理是个独立的、巨大的市场”。Cerebras、Groq 这些以推理切入的玩家,从这个视角看,并不是在做小生意。
第二,AMD 在推理时代的定位会变得更重要。训练侧 NVIDIA 的护城河非常深(网络生态、CUDA、机架),但推理侧门槛要低一些,对带宽和单卡算力的极限要求没那么苛刻。
第三,custom ASIC(定制芯片)的需求会持续——Google 自己用 TPU、AWS 有 Trainium、Meta 在做自己的推理芯片,每家 hyperscaler 都有动力把推理的 30% 总算力搬到自家芯片上去。这个趋势会持续利好做 ASIC 设计的设计服务公司。
七、API 定价是怎么「泄露」行业内裤的
这一节稍微技术一点,但很有意思。Reiner 用了一个反向的方法:从公开的 API 定价反推 frontier lab 的内部架构选择。
为什么这能成立?因为 API 价格必然贴近成本——定得太高,竞争对手就来撬。所以定价结构里藏着真实的成本结构。
现象 1:Decode 比 Prefill 贵 5 倍
输出(decode)是模型一个一个吐出 token,输入(prefill)是一次性处理完整段输入。当前主流定价里,输出大约比输入贵 3 到 5 倍。
Reiner 推出来的结论是:这说明 frontier lab 在 decode 阶段被内存带宽锁得很死——他们的算力实际上有大量空转。
也就是说:算力其实是有富余的,缺的是带宽。
这对于大家理解今天本号发的头条文章对于HBM研究的重要性。
现象 2:Cache Hit 便宜 10 倍
如果一段输入命中缓存(之前用过),价格能便宜 10 倍。Reiner 把这件事推到内存层级经济学:
不同的存储介质有不同的”经济持有时间”:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
让 Reiner 自己都觉得意外的是:机械硬盘在 AI 推理基础设施里仍然在被使用——尽管它读全部容量要花一个小时。
现象 3:Gemini 在 200K token 处涨价 50%
为什么是 200K,为什么是 50%?Reiner 推出来:这正是算力瓶颈和带宽瓶颈的过渡点。200K 之前主要被算力限制,之后主要被带宽限制,两段定价是为了两边都有利润。
这件事的第五个投资含义
多层存储市场都在被 AI 消耗,不只是 HBM。
-
HBM 是最贵的、最被关注的,但只解决”分钟内”的工作集 -
DDR(主机内存)市场也在受益 -
企业级 SSD / Flash 在 AI 推理里有持续需求 -
甚至机械硬盘都还有它的位置
这意味着整个存储产业链——从最快的 HBM 到最慢的机械硬盘——都是 AI 这波浪潮的受益者。这和过去人们以为「AI = HBM」的简化叙事是有差别的。
八、上下文长度有天花板:百万以上 token 经济上不划算
很多人——包括 Anthropic 的 Dario 在播客里——讲过一个乐观叙事:我们不需要持续学习,超长上下文(in-context learning)就够了。意思是,未来的 AI 助理不需要”记住”你,只要每次把你过去几个月的所有交互全部塞进上下文,它就能像老员工一样了解你。
这听起来很合理,但前提是上下文要能做到上亿 token 量级。
但百万 token 是”能做但贵“,继续推到百万、千万、亿 token,性价比会陡然恶化。这里”恶化”指的是单 token 成本会显著上升,因为 KV Cache 的内存带宽消耗是线性增长的。
Reiner 的判断是:这条路目前没有清晰的解药。
为什么?因为上下文越长,KV Cache 越大,每生成一个 token 都要把整个 KV Cache 从内存里读一遍——又回到了内存带宽的瓶颈。而 HBM 带宽这条曲线,没有看到显著突破的路径。
模型上下文从 GPT-3 的 8K 跳到 GPT-4 的 100K-200K,过去一两年基本就横盘在 200K 附近。Reiner 说:这暗示 200K 大概就是当前架构和硬件下的成本均衡点,再往上推,性价比会陡然恶化。
原话:”实证结果是认知能力没在持续提升,我认为是因为 memory wall 没有解。“
所以:
第一,上下文”分级定价”会成为常态。不同长度对应不同价格档,frontier lab 在用价格曲线把不同需求的客户分开。
第二,外部记忆系统(向量数据库、RAG、记忆管理)的需求依然成立。因为对大多数应用来说,”用 RAG 喂 50K token + 200K 上下文”比”硬塞 1M 上下文”便宜得多。
第三,Gemini 在长上下文上的差异化竞争力是真的。Google 拥有更大的 scale-up domain(TPU pod),所以它能比别家更经济地提供长上下文产品——这是 Google 在长文档分析、视频理解这些场景上的结构性优势。这个优势是工程经济学决定的,不是临时领先。
从投资视角的话,这一部分目前最值得关注的是端侧 AI 这条线,我会在后续放出研报(此前已经提前放出高通研报,为了赶在财报前发布)
这件事的第六个投资含义
AI 应用的形态会被上下文天花板锁住一段时间。
具体来说:
-
AI Agent 的”记忆”问题不会很快被超长上下文一招解决。要做长期记忆的 agent,必须在外部记忆系统(比如向量数据库、retrieval-augmented generation)上下功夫。这意味着相关的中间件、向量存储、记忆管理工具有自己的市场。
-
超长上下文(1M+)会维持高溢价定价。能处理百万 token 的服务(比如分析整个代码库、读完一本书)会作为差异化产品存在,但它们不会成为主流。
-
稀疏注意力可能是一个突破口。Reiner 提到 sparse attention 能给一个 √N 量级的改善,可能是少数能把上下文继续推大的算法路径。
九、总结
Reiner 这场两小时的讲座浓缩成投资视角的结论:
第一,AI 的瓶颈是搬数据,不是算账。围绕这个瓶颈展开的所有解决方案——HBM、机架级互联、专门的推理芯片——都有结构性需求。这个需求短期内没有解。
第二,单卡时代过去了,机架时代来了。NVIDIA 的真正护城河升级,是从 8 卡到 72 卡再到 500 卡的物理工程能力。这一波物料供应链的赢家——从液冷到电源到线缆到机架——会被重新洗牌。
第三,模型架构在收敛。MoE + 大量稀疏度 + 更细粒度的专家,是行业方向。DeepSeek 在算法层面做出的贡献被严重低估了。
第四,推理才是大头。三段成本平衡里,推理占三分之一;每代模型在生命周期里吐出的 token 总量,等于它吃下去的全部预训练数据量。这意味着推理芯片市场是真实存在的、巨大的市场。
第五,存储是全谱系受益。HBM 是焦点,但 DDR、Flash、甚至机械硬盘都在被 AI 消耗。
第六,上下文长度有天花板,AI 应用形态在短期内会被这个天花板锁住。能突破这个天花板的算法(比如稀疏注意力)值得长期跟踪。
把这六条放进 AI 投资地图来看,2026 年最确定的几个方向——内存(HBM 优先,但不止)、机架级互联与基础设施(电源、冷却、网络)、推理芯片(包括专用 ASIC)、模型架构创新(MoE 系)——都能在 Reiner 这场讲座里找到第一性原理上的依据。
而我会继续高强度一家家过下去,最笨的办法会最有效。
*
如果觉得有帮助请点赞转发、点击“在看”等,您的支持是我持续分享的最大动力,谢谢! 推荐将本号“加为星标”。
关注我,在别人看热闹的地方,看到机会。
更多内容,访问 dayu.xyz
免责声明:本文为对一场公开播客的内容整理与解读,所提到的所有产业方向均为对原嘉宾观点的转述与延伸讨论,不构成任何投资建议。投资决策请基于个人独立研究。
夜雨聆风