英伟达有一位内部研究员,叫Bryan Catanzaro。
他是英伟达应用深度学习团队的负责人,也是当年那个发现"AI研究员在疯狂抢购GPU"的人——正是他的判断,促使英伟达全面押注AI赛道,从而造就了今天的英伟达神话。
就在最近,他向黄仁勋提交了一份算力申请。
黄仁勋的回复是:"不好意思,那些卡已经卖掉了。"
这不是段子。是真事。
连英伟达自己的研究员,都抢不到GPU了。
一、那些卡,都去哪里了?
2026年5月,硅谷正在经历一场前所未有的算力饥荒。
数字先说话:
H100 GPU的一年期合约租金,从2025年10月的每小时1.7美元,涨到了2026年3月的2.35美元,现货市场甚至突破了4美元——是两年前的两倍。
H200的现货价格从4.96美元涨到6.40美元,单次涨幅接近30%。更荒诞的是:H200的价格,比更新一代的B200还贵。新款反而比旧款便宜——这打破了所有人对科技产品的常识认知。
抢不到卡不只是价格问题,很多时候是根本买不到:
- RunPod多种型号显示 unavailable
- Azure上H100虚拟机一启动就提示 capacity不足
- Google Colab在你选GPU之后会被系统自动降档
- 国内某云平台的H100排期,已经到了2027年第一季度
就算你有钱,也可能没有配额。普通开发者连"8×H100的预审批配额"都申请不到,需要排队、审核、层层走流程。
那些卡去哪儿了?被大企业锁进了长期合同里。被囤积,被闲置,被一个接一个的"万一以后不够用"的焦虑所绑架。
Cast AI的报告数据更讽刺:大企业GPU集群的平均利用率,只有 5%。马斯克的Colossus算力中心,模型算力利用率(MFU)只有约 11%。
大部分GPU其实没有在干活,但就算它们闲着,也不会被释放——因为"交出去的卡可能再也拿不回来"。
这是一个教科书级别的恶性循环:
短缺 → 恐慌 → 囤积 → 更深的短缺。
二、Karpathy也被困住了
你可能知道Andrej Karpathy。
前特斯拉AI总监,前OpenAI研究员,全球最受欢迎的AI教育者之一。他的教学视频,很多AI开发者入门时都看过。
就在这个月,他在录制一个叫 nanochat 的教学项目时,在社交媒体上发帖吐槽:
"如果实验的第一步是让学员从云平台启动一台8×H100的服务器,那么绝大部分人将倒在起跑线上。"
这条帖子下面,涌来了大规模的"比惨现场"。开发者们晒出了各自抢GPU失败的截图:被拒绝的配额申请,排到明年的等待名单,系统自动降配的通知。
当"启动一台服务器"成为拦路虎,很多人在学会AI之前,就已经被筛掉了。
三、谷歌内部,也在"内卷"
问题不只存在于创业者和个人开发者之间。
DeepMind的研究员Andrew Dai,申请了一批TPU资源,想做视觉推理研究。迟迟没有结果。拒绝的理由是:项目无法直接服务下一代Gemini,也不能直接产生付费收入。
在今天的谷歌内部,有一条不成文的原则:"每一块TPU背后,都有三位竞争者。"
Dai最终离职,走上了创业路。跟他同期离职的,还有谷歌研究员Anna Goldie——她拿到了3.35亿美元融资。谷歌想留住她,但开出的挽留条件不是加薪,不是期权,而是"更多的TPU算力"。
Goldie在接受采访时说:融资能买到的算力,跟谷歌愿意给的几乎相当。
算力,已经成了人才谈判桌上的筹码。

▲ 算力越贵,效率就越是护城河——能用更少的算力跑出同等效果,才是真实竞争力
四、算力正在变成一种筛选机制
回头看这一切,有一个现象越来越清晰:
算力正在从"工具"变成"门槛"。
这个变化很隐蔽,但影响很深远。
过去我们说"AI民主化"——模型越来越开放,代码可以fork,权重可以下载,一个普通人也能在自己电脑上跑大模型。这个叙事在2023年、2024年是成立的。
但2026年的现实是:
模型代码开源了,但跑起来的算力,没有开源。权重可以下载,但推理的成本,并没有下来。Llama可以fork,但H100不能fork。
被算力门槛拦住的,不是没有想法的人,不是技术能力弱的人,而是没有预算、没有配额、没有长期合同的人。
有一些团队,能以每月几十万美元的算力成本训练和迭代模型;另一些团队,连一个8×H100的demo环境都跑不起来。
你不会在任何正式文件里看到"因为你没有算力所以你不能参与AI",但现实的结果就是这样。
这是一种新的分层,但它发生得非常悄然。

▲ 大企业囤积算力宁可闲置,小团队排期等到明年——算力正在从工具变成门槛
五、为什么旧卡比新卡贵?
还有一件事值得细说:H200比B200贵,旧款反而比新款贵。
这不是市场失灵,这是供需结构的映射。
H100和H200的生态已经非常成熟——CUDA适配完善,工程师熟悉,出了问题知道怎么排查。企业愿意为这种"确定性"多付钱。
B200虽然性能更强,但它刚刚量产,在系统兼容性、驱动稳定性、工程经验上都还需要时间积累。
市场在为"可靠性"付溢价,而不只是为"算力"付溢价。
六、国内的处境更复杂
对于中国的AI从业者,这件事还有额外一层压力。
高端GPU的获取受出口管制限制,H100、H200本来就不是随便能买的。国产算力替代正在加速推进,但从CUDA体系切换到昇腾、摩尔线程等国产体系,存在真实的工程成本:适配层的修改、代码迁移、调试周期,对小团队来说是实实在在的时间和人力开销。
当全球算力都在涨价和紧缺,国内的独立开发者和小团队面对的压力,比硅谷的同行更高出一个维度。
七、这对你意味着什么
如果你在做AI相关的工作,或者打算进入这个领域,有几件事值得想清楚:
第一,算力成本是真实的商业变量。
做AI产品,不能只算模型效果,要算算力成本。一个对话轮次多少钱、一次推理多少毫秒、月活用户规模下的服务器成本是多少——这些不是技术问题,是商业模型的基础。
第二,边缘计算和端侧推理的价值正在被重新定价。
云端算力越贵,端侧推理的经济账就越好算。手机、PC、本地服务器上的AI,会因为这次算力荒而重新获得重视。这是另一种方向的机会。
第三,效率就是护城河。
在算力紧缺的环境里,能用更少的算力跑出同等效果,就是真实的竞争优势。中国的开发者在这方面反而有独特的积累——硬件受限的环境逼出了极致的工程效率和算法优化能力。
第四,你不一定需要H100。
很多真实的商业场景,并不需要最新最贵的卡。垂直行业的AI应用,中低端算力加上精调的小模型,很可能是比"追H200"更合理的选择。
最后
那个英伟达内部研究员Bryan Catanzaro的故事,是这场算力荒里最具讽刺意味的注脚。
他是亲手推动英伟达进入AI时代的人。结果,这个时代里算力最稀缺的时刻,连他自己也抢不到卡。
历史有时候就是这样运转的——你造了浪,自己也会被浪拍到。
当算力成为稀缺资源,AI世界里真正的竞争,已经不只是比谁的模型聪明,而是比谁能先把算力这件事解决掉。
系列第十六篇。算力荒这件事,比大多数人意识到的要严重。它不是一个"技术圈的小麻烦",而是一个正在深刻改变AI竞争格局的结构性问题。

数据来源:腾讯科技、Cast AI报告、Lambda Labs、AITNT日报、Karpathy社交媒体
文章作者:零售AI魔方 | 聚焦AI与零售的深度分析 · 系列第十六篇
夜雨聆风