GPU已经不够分了:AI时代,算力正在成为新的阶层门槛

英伟达有一位内部研究员，叫Bryan Catanzaro。

他是英伟达应用深度学习团队的负责人，也是当年那个发现"AI研究员在疯狂抢购GPU"的人——正是他的判断，促使英伟达全面押注AI赛道，从而造就了今天的英伟达神话。

就在最近，他向黄仁勋提交了一份算力申请。

黄仁勋的回复是："不好意思，那些卡已经卖掉了。"

这不是段子。是真事。

连英伟达自己的研究员，都抢不到GPU了。

一、那些卡，都去哪里了？

2026年5月，硅谷正在经历一场前所未有的算力饥荒。

数字先说话：

H100 GPU的一年期合约租金，从2025年10月的每小时1.7美元，涨到了2026年3月的2.35美元，现货市场甚至突破了4美元——是两年前的两倍。

H200的现货价格从4.96美元涨到6.40美元，单次涨幅接近30%。更荒诞的是：H200的价格，比更新一代的B200还贵。新款反而比旧款便宜——这打破了所有人对科技产品的常识认知。

抢不到卡不只是价格问题，很多时候是根本买不到：

- RunPod多种型号显示 unavailable
- Azure上H100虚拟机一启动就提示 capacity不足
- Google Colab在你选GPU之后会被系统自动降档
- 国内某云平台的H100排期，已经到了2027年第一季度

就算你有钱，也可能没有配额。普通开发者连"8×H100的预审批配额"都申请不到，需要排队、审核、层层走流程。

那些卡去哪儿了？被大企业锁进了长期合同里。被囤积，被闲置，被一个接一个的"万一以后不够用"的焦虑所绑架。

Cast AI的报告数据更讽刺：大企业GPU集群的平均利用率，只有 5%。马斯克的Colossus算力中心，模型算力利用率（MFU）只有约 11%。

大部分GPU其实没有在干活，但就算它们闲着，也不会被释放——因为"交出去的卡可能再也拿不回来"。

这是一个教科书级别的恶性循环：
短缺 → 恐慌 → 囤积 → 更深的短缺。

二、Karpathy也被困住了

你可能知道Andrej Karpathy。

前特斯拉AI总监，前OpenAI研究员，全球最受欢迎的AI教育者之一。他的教学视频，很多AI开发者入门时都看过。

就在这个月，他在录制一个叫 nanochat 的教学项目时，在社交媒体上发帖吐槽：

"如果实验的第一步是让学员从云平台启动一台8×H100的服务器，那么绝大部分人将倒在起跑线上。"

这条帖子下面，涌来了大规模的"比惨现场"。开发者们晒出了各自抢GPU失败的截图：被拒绝的配额申请，排到明年的等待名单，系统自动降配的通知。

当"启动一台服务器"成为拦路虎，很多人在学会AI之前，就已经被筛掉了。

三、谷歌内部，也在"内卷"

问题不只存在于创业者和个人开发者之间。

DeepMind的研究员Andrew Dai，申请了一批TPU资源，想做视觉推理研究。迟迟没有结果。拒绝的理由是：项目无法直接服务下一代Gemini，也不能直接产生付费收入。

在今天的谷歌内部，有一条不成文的原则："每一块TPU背后，都有三位竞争者。"

Dai最终离职，走上了创业路。跟他同期离职的，还有谷歌研究员Anna Goldie——她拿到了3.35亿美元融资。谷歌想留住她，但开出的挽留条件不是加薪，不是期权，而是"更多的TPU算力"。

Goldie在接受采访时说：融资能买到的算力，跟谷歌愿意给的几乎相当。

算力，已经成了人才谈判桌上的筹码。

▲ 算力越贵，效率就越是护城河——能用更少的算力跑出同等效果，才是真实竞争力

四、算力正在变成一种筛选机制

回头看这一切，有一个现象越来越清晰：

算力正在从"工具"变成"门槛"。

这个变化很隐蔽，但影响很深远。

过去我们说"AI民主化"——模型越来越开放，代码可以fork，权重可以下载，一个普通人也能在自己电脑上跑大模型。这个叙事在2023年、2024年是成立的。

但2026年的现实是：

模型代码开源了，但跑起来的算力，没有开源。权重可以下载，但推理的成本，并没有下来。Llama可以fork，但H100不能fork。

被算力门槛拦住的，不是没有想法的人，不是技术能力弱的人，而是没有预算、没有配额、没有长期合同的人。

有一些团队，能以每月几十万美元的算力成本训练和迭代模型；另一些团队，连一个8×H100的demo环境都跑不起来。

你不会在任何正式文件里看到"因为你没有算力所以你不能参与AI"，但现实的结果就是这样。

这是一种新的分层，但它发生得非常悄然。

▲ 大企业囤积算力宁可闲置，小团队排期等到明年——算力正在从工具变成门槛

五、为什么旧卡比新卡贵？

还有一件事值得细说：H200比B200贵，旧款反而比新款贵。

这不是市场失灵，这是供需结构的映射。

H100和H200的生态已经非常成熟——CUDA适配完善，工程师熟悉，出了问题知道怎么排查。企业愿意为这种"确定性"多付钱。

B200虽然性能更强，但它刚刚量产，在系统兼容性、驱动稳定性、工程经验上都还需要时间积累。

市场在为"可靠性"付溢价，而不只是为"算力"付溢价。

六、国内的处境更复杂

对于中国的AI从业者，这件事还有额外一层压力。

高端GPU的获取受出口管制限制，H100、H200本来就不是随便能买的。国产算力替代正在加速推进，但从CUDA体系切换到昇腾、摩尔线程等国产体系，存在真实的工程成本：适配层的修改、代码迁移、调试周期，对小团队来说是实实在在的时间和人力开销。

当全球算力都在涨价和紧缺，国内的独立开发者和小团队面对的压力，比硅谷的同行更高出一个维度。

七、这对你意味着什么

如果你在做AI相关的工作，或者打算进入这个领域，有几件事值得想清楚：

第一，算力成本是真实的商业变量。
做AI产品，不能只算模型效果，要算算力成本。一个对话轮次多少钱、一次推理多少毫秒、月活用户规模下的服务器成本是多少——这些不是技术问题，是商业模型的基础。

第二，边缘计算和端侧推理的价值正在被重新定价。
云端算力越贵，端侧推理的经济账就越好算。手机、PC、本地服务器上的AI，会因为这次算力荒而重新获得重视。这是另一种方向的机会。

第三，效率就是护城河。
在算力紧缺的环境里，能用更少的算力跑出同等效果，就是真实的竞争优势。中国的开发者在这方面反而有独特的积累——硬件受限的环境逼出了极致的工程效率和算法优化能力。

第四，你不一定需要H100。
很多真实的商业场景，并不需要最新最贵的卡。垂直行业的AI应用，中低端算力加上精调的小模型，很可能是比"追H200"更合理的选择。

最后

那个英伟达内部研究员Bryan Catanzaro的故事，是这场算力荒里最具讽刺意味的注脚。

他是亲手推动英伟达进入AI时代的人。结果，这个时代里算力最稀缺的时刻，连他自己也抢不到卡。

历史有时候就是这样运转的——你造了浪，自己也会被浪拍到。

当算力成为稀缺资源，AI世界里真正的竞争，已经不只是比谁的模型聪明，而是比谁能先把算力这件事解决掉。

系列第十六篇。算力荒这件事，比大多数人意识到的要严重。它不是一个"技术圈的小麻烦"，而是一个正在深刻改变AI竞争格局的结构性问题。

数据来源：腾讯科技、Cast AI报告、Lambda Labs、AITNT日报、Karpathy社交媒体

文章作者：零售AI魔方 | 聚焦AI与零售的深度分析 · 系列第十六篇