AI 利润结构的探讨

过去两年，AI 产业有一个非常明显的现象：

用户觉得 AI 越来越好用，模型公司收入越来越高，云厂商拼命买 GPU，GPU 云疯狂扩张，Nvidia 和 TSMC 则站在整个产业链最上游，几乎成为所有人绕不开的“入口”。

但问题是：

AI 创造出来的价值，最后到底会沉淀在哪里？

是终端用户？

是 OpenAI、Anthropic 这样的模型公司？

是 CoreWeave 这类 GPU 云？

是 Google、Amazon、Microsoft 这样的超大云？

还是 Nvidia、TSMC、HBM 内存厂这些基础设施供应商？

本篇文章想讲清楚一个核心故事：

AI 的利润池，正在从单纯的硬件周期，进入一个由 Agentic AI 驱动的新阶段。而在这个阶段里，价值的分配方式正在重新洗牌。

一、过去两年，AI 的钱主要被基础设施吃掉了

如果回看 2023 到 2025 年，AI 产业链里最赚钱的部分，其实不是模型公司，也不是终端应用，而是基础设施。

2023 年，最典型的赢家是 Nvidia。

几乎所有 AI 公司都需要 GPU，没有 GPU 就没有训练，也没有大规模推理。

2024 年，电力和能源基础设施开始成为市场焦点，Vistra、GE Vernova 这类公司被重新定价。因为 AI 数据中心不是只需要芯片，它还需要电，需要冷却，需要基础电网承载能力。

到了 2025 年，价值又进一步外溢到内存，尤其是 HBM。因为新一代 AI 系统不只是算力问题，更是内存带宽、容量和封装能力的问题。

这说明一件事：

在 AI 早期，真正稀缺的不是应用，而是算力。

当所有人都在抢 GPU、抢电、抢 HBM、抢先进封装时，利润自然优先流向最稀缺的环节。

那时候，模型公司虽然重要，但商业价值还没有完全释放出来。AI 更多是在改善搜索、提升办公效率、辅助写代码，应用场景还没有真正变成大规模、持续性、高价值的工作流。

但 Agentic AI 出现之后，情况开始变了。

二、Agentic AI 改变了游戏规则

过去的 AI，更像是一个“问答工具”。

你问一句，它答一句。

你让它写一段代码，它写一段。

你让它总结一篇文章，它给你一个摘要。

但 Agentic AI 不一样。

以 Claude Code 这样的产品为代表，AI 开始从“回答问题”变成“执行任务”。它不只是生成文本，而是能够在更长上下文里连续推理、调用工具、修改代码、反复验证，最终完成一个完整工作流。

这带来的变化非常大。

过去，一个复杂的软件任务可能需要一个团队，花费几天甚至几周完成。

现在，用户可能只需要不断消耗 token，让 AI 一步步推进任务。

这意味着，AI 的使用量不再是线性增长，而是会随着任务复杂度大幅上升。

换句话说：

Agentic AI 不是让人少用 AI，而是让人用得更多。

这也是为什么 Anthropic 这类模型公司的收入和利润预期会突然变得非常重要。据Semianalysis测算，Anthropic 的 ARR 可能从 9B 走向 44B，而基础设施利润率也可能从 38% 提升到 70%。这背后不是简单的“模型涨价”，而是整个使用范式变了。

AI 不再只是一个工具，而开始变成一种“数字劳动力”。

一旦 AI 能够替代一部分高价值人力劳动，客户对 token 的支付意愿就会显著提高。因为客户比较的对象不再是“这次 API 调用贵不贵”，而是“相比雇人做这件事，AI 帮我省了多少钱”。

这才是 Agentic AI 的真正商业意义。

三、Token 正在变便宜，但模型公司的利润反而在变高

这里有一个看似矛盾的现象：

模型服务的价格在下降，但模型公司的利润率可能在上升。

原因很简单：

价格下降的速度，低于成本下降的速度。

虽然 GPU 单价越来越高，但新一代硬件的吞吐提升更大。也就是说，一台更贵的机器，能够产出更多 token，单位 token 成本反而下降。

与此同时，推理软件栈也在快速优化。比如更好的并行策略、disaggregation、MTP、KVcache 优化等，都能显著提高吞吐。

这对模型公司的意义非常直接：

只要 token 成本下降得足够快，即使模型 API 价格下降，毛利率也可以继续提高。

更重要的是，Agentic AI 的任务流天然有利于模型公司赚钱。

因为 Agentic 工作流通常是多轮的，输入上下文会越来越长，input/output ratio 也会变大。同时，很多上下文可以被缓存，cache hit rate 提高后，实际推理成本会进一步下降。

所以，表面看是“模型越来越便宜”，实际看却是：

模型公司每服务一个高价值任务，可能赚得比以前更多。

四、为什么模型公司的利润不会很快受到竞争的影响？

很多人会说：模型行业竞争这么激烈，OpenAI、Anthropic、Google、Meta、xAI，还有各种开源模型，最后利润一定会被抹平。

这个逻辑看起来合理，但短期内未必成立。

原因有两个。

第一，顶尖闭源模型依然明显更好用。

尤其是在复杂 Agentic 任务里，模型的可靠性、长上下文能力、工具调用能力、代码能力和多轮推理稳定性，都非常关键。只要闭源模型在这些场景里领先，客户就愿意为更高成功率付费。

第二，算力供给本身不够。

即使有很多模型公司，也没有任何一家能够无限供应 token。AI 需求增长太快，而 GPU、HBM、先进封装、电力和数据中心建设都存在瓶颈。

这意味着，在未来一段时间里，市场不是“模型公司抢客户”，而更可能是“客户抢高质量模型和算力”。

如果需求远远大于供给，那么顶尖模型公司就不需要把价格压到成本线附近。它们可以按照 AI 为客户创造的经济价值定价，而不是按照单位 token 成本定价。

这也是 AI 产业和传统软件很不一样的地方。

传统软件一旦边际成本趋近于零，竞争可能把价格不断压低。

但 AI 推理不是零边际成本，它受制于真实的算力供给。

因此笔者认为，短期内，顶尖模型公司的利润不会轻易消失。

五、Nvidia -- “AI 的中央银行”？

如果 Agentic AI 让 token 需求暴涨，那么最关键的问题就变成：

谁控制 token 的生产资料？

答案绕不开 Nvidia。

Nvidia 不只是卖 GPU。它实际上控制了 AI 时代最关键的一整套系统能力：GPU、网络、软件栈、整机方案、供应链协同，以及对上游 TSMC wafer、HBM 和先进封装资源的获取能力。

Nvidia 正在变成 AI 的中央银行。

中央银行控制货币供给，而 Nvidia 控制 AI 算力供给。

当算力是整个产业最稀缺的资源时，Nvidia 理论上拥有极强的定价权。

但有意思的是，Nvidia 似乎并没有把价格涨到极限。

从纯供需角度看，如果市场极度缺 GPU，Nvidia 完全可以继续大幅涨价。但现实中，Nvidia 似乎更愿意让 AI labs、云厂商、Neocloud 都保留一部分利润空间。

为什么？

因为 Nvidia 追求的可能不是短期利润最大化，而是长期生态最大化。

如果 Nvidia 把所有利润都吃掉，下游玩家扩张能力会下降，监管风险会上升，竞争对手也会更有动力绕开 Nvidia。相反，如果它让生态里的其他参与者也赚到钱，整个市场会继续扩大，所有人也会更深地绑定在 Nvidia 平台上。

这和台积电的策略其实很像。

TSMC 在先进制程极度紧张时，也没有完全按照稀缺性把 wafer 价格涨到天花板，而是通过长期合约、产能承诺、预付款等方式变现，同时维持客户关系和产业生态稳定。

Nvidia 现在做的，某种程度上也是同样的事：

不把价格一次性推到极限，而是通过控制供给、扩大生态、压制替代方案，等待未来更大的价值定价空间。

六、Neocloud 的机会：如果 Nvidia 不涨价，差价就归它们

这就引出了另一个关键角色：Neocloud。

比如 CoreWeave、Lambda 这类公司，它们本质上是在把 GPU 集群出租给 AI 公司、模型公司和企业客户。

如果 Nvidia 当前没有把 AI 系统价格涨到最高，那么中间的价值空间会被谁拿走？

答案很可能是 Neocloud。

根据测算，对 Neocloud 来说，每 GPU 每小时大约收 $4.90，就可以达到类似 GB300 项目的 15% IRR。

但对终端客户来说，如果按照 GB300 的每 PFLOP 成本来衡量，他们最高可能接受 $12.25/hr/GPU。

也就是说，成本定价和价值定价之间，存在非常大的差距。

如果 Neocloud 能够以较低成本拿到机器，然后在算力供不应求时按照客户愿意支付的价值来出租，那么它们就能吃到这段差价。

这说明一个很重要的短期判断：

只要算力持续稀缺，而 Nvidia 没有把价格涨到极限，Neocloud 就有机会捕获大量利润。

但这个机会不是永久的。

一旦 TPU、Trainium、其他 AI ASIC 逐渐成熟，算力供给增加，市场从“稀缺定价”回到“成本定价”，Neocloud 的超额利润就会被压缩。

所以 Neocloud 的核心问题不是现在能不能赚钱，而是：

算力稀缺到底能持续多久？

七、竞争会不会削弱 Nvidia 的定价权？

Nvidia 的涨价空间不是无限的。

如果世界上只有 Nvidia 能提供高性能 AI 算力，它当然可以按照客户能承受的最高价格定价。

但现实中，竞争正在出现。

Anthropic 已经部分转向 Trainium 和 TPU。Google 有 TPU，Amazon 有 Trainium，其他 ASIC 方案也在发展。

这些替代方案不一定在所有维度上都强于 Nvidia，但它们有一个优势：

云厂商自研芯片的成本结构可能更低。

如果 TPU 或 Trainium 能够提供更低的 cost per token，或者更低的 cost per training FLOP，就会对 Nvidia 的价值定价形成压制。

短期看，Nvidia 仍有明显优势。

它有最成熟的软件生态，最强的系统交付能力，最好的供应链地位，以及对 HBM、TSMC 产能和先进封装资源的掌控。

但长期看，如果替代算力系统越来越成熟，算力稀缺被缓解，Nvidia 的定价权就会被削弱。

这也是整篇文章最重要的张力：

短期，算力稀缺支撑 Nvidia 和 Neocloud 的利润。

长期，竞争和供给扩张可能把价值定价重新拉回成本定价。

八、所以，AI 的价值最终会被谁捕获？

我们可以分时间维度来看。

短期内，最大赢家仍然是基础设施层。

Nvidia、TSMC、HBM 厂商，以及一部分 Neocloud，会继续受益于算力供不应求。只要 Agentic AI 需求继续增长，算力就仍然是最稀缺资源。

中期看，模型公司会开始拿到更多利润。

因为 Agentic AI 让模型从“工具”变成“劳动力”，客户支付意愿提高。同时，推理成本持续下降，模型公司毛利率有机会继续提升。

Neocloud 的机会取决于 Nvidia 的定价策略。

如果 Nvidia 不把系统价格涨到极限，那么 Neocloud 可以捕获“成本价格”和“客户价值价格”之间的差额。

但如果 Nvidia 主动涨价，或者算力供给不再稀缺，Neocloud 的利润空间会被压缩。

而超大云厂商的优势在于规模和自研能力。

它们可以通过 TPU、Trainium、自建网络和数据中心能力降低对 Nvidia的依赖。但短期内，它们仍然逃不开上游资源瓶颈。

终端用户也会受益，但未必捕获最多利润。

AI 确实会帮助企业节省成本、提升效率、创造新收入。但在算力稀缺阶段，大量价值会通过 token 使用费、云算力租赁费和模型 API 价格被上游拿走。

结论：AI 的真正稀缺，不是模型，而是可用的Intelligence

过去我们讨论 AI，经常把重点放在模型能力上。

谁的模型更强？

谁的 benchmark 更高？

谁的上下文更长？

谁的 Agent 更好用？

但从商业角度看，更关键的问题可能是：

谁能以最低成本、最大规模、最稳定地生产智能？

这背后需要模型、算力、内存、网络、电力、封装、数据中心和软件栈共同配合。

Agentic AI 的出现，让 AI 的商业价值真正开始显性化。

Token 成本下降，让模型公司利润率有机会提升。

算力需求暴涨，让 Nvidia、TSMC、HBM 和 Neocloud 继续站在价值链中心。

而 TPU、Trainium 等竞争方案，又在长期压制 Nvidia 的定价权。

所以，AI 产业接下来的主线，可能不只是“模型越来越强”。

更准确地说，是：

当 AI 开始成为数字劳动力，整个产业链都在争夺这份劳动力所创造的利润。

谁控制稀缺资源，谁就能先赚钱。

谁能把成本降得更快，谁就能赚得更久。

谁能把 AI 的价值直接卖给客户，谁就有机会成为下一阶段真正的利润中心。