如果回看 2023 到 2025 年,AI 产业链里最赚钱的部分,其实不是模型公司,也不是终端应用,而是基础设施。2023 年,最典型的赢家是 Nvidia。几乎所有 AI 公司都需要 GPU,没有 GPU 就没有训练,也没有大规模推理。2024 年,电力和能源基础设施开始成为市场焦点,Vistra、GE Vernova 这类公司被重新定价。因为 AI 数据中心不是只需要芯片,它还需要电,需要冷却,需要基础电网承载能力。到了 2025 年,价值又进一步外溢到内存,尤其是 HBM。因为新一代 AI 系统不只是算力问题,更是内存带宽、容量和封装能力的问题。这说明一件事:在 AI 早期,真正稀缺的不是应用,而是算力。当所有人都在抢 GPU、抢电、抢 HBM、抢先进封装时,利润自然优先流向最稀缺的环节。那时候,模型公司虽然重要,但商业价值还没有完全释放出来。AI 更多是在改善搜索、提升办公效率、辅助写代码,应用场景还没有真正变成大规模、持续性、高价值的工作流。但 Agentic AI 出现之后,情况开始变了。
二、Agentic AI 改变了游戏规则
过去的 AI,更像是一个“问答工具”。你问一句,它答一句。你让它写一段代码,它写一段。你让它总结一篇文章,它给你一个摘要。但 Agentic AI 不一样。以 Claude Code 这样的产品为代表,AI 开始从“回答问题”变成“执行任务”。它不只是生成文本,而是能够在更长上下文里连续推理、调用工具、修改代码、反复验证,最终完成一个完整工作流。这带来的变化非常大。过去,一个复杂的软件任务可能需要一个团队,花费几天甚至几周完成。现在,用户可能只需要不断消耗 token,让 AI 一步步推进任务。这意味着,AI 的使用量不再是线性增长,而是会随着任务复杂度大幅上升。换句话说:Agentic AI 不是让人少用 AI,而是让人用得更多。这也是为什么 Anthropic 这类模型公司的收入和利润预期会突然变得非常重要。据Semianalysis测算,Anthropic 的 ARR 可能从 9B 走向 44B,而基础设施利润率也可能从 38% 提升到 70%。这背后不是简单的“模型涨价”,而是整个使用范式变了。AI 不再只是一个工具,而开始变成一种“数字劳动力”。一旦 AI 能够替代一部分高价值人力劳动,客户对 token 的支付意愿就会显著提高。因为客户比较的对象不再是“这次 API 调用贵不贵”,而是“相比雇人做这件事,AI 帮我省了多少钱”。这才是 Agentic AI 的真正商业意义。
三、Token 正在变便宜,但模型公司的利润反而在变高
这里有一个看似矛盾的现象:模型服务的价格在下降,但模型公司的利润率可能在上升。原因很简单:价格下降的速度,低于成本下降的速度。虽然 GPU 单价越来越高,但新一代硬件的吞吐提升更大。也就是说,一台更贵的机器,能够产出更多 token,单位 token 成本反而下降。与此同时,推理软件栈也在快速优化。比如更好的并行策略、disaggregation、MTP、KVcache 优化等,都能显著提高吞吐。这对模型公司的意义非常直接:只要 token 成本下降得足够快,即使模型 API 价格下降,毛利率也可以继续提高。更重要的是,Agentic AI 的任务流天然有利于模型公司赚钱。因为 Agentic 工作流通常是多轮的,输入上下文会越来越长,input/output ratio 也会变大。同时,很多上下文可以被缓存,cache hit rate 提高后,实际推理成本会进一步下降。所以,表面看是“模型越来越便宜”,实际看却是:模型公司每服务一个高价值任务,可能赚得比以前更多。
四、为什么模型公司的利润不会很快受到竞争的影响?
很多人会说:模型行业竞争这么激烈,OpenAI、Anthropic、Google、Meta、xAI,还有各种开源模型,最后利润一定会被抹平。这个逻辑看起来合理,但短期内未必成立。原因有两个。第一,顶尖闭源模型依然明显更好用。尤其是在复杂 Agentic 任务里,模型的可靠性、长上下文能力、工具调用能力、代码能力和多轮推理稳定性,都非常关键。只要闭源模型在这些场景里领先,客户就愿意为更高成功率付费。第二,算力供给本身不够。即使有很多模型公司,也没有任何一家能够无限供应 token。AI 需求增长太快,而 GPU、HBM、先进封装、电力和数据中心建设都存在瓶颈。这意味着,在未来一段时间里,市场不是“模型公司抢客户”,而更可能是“客户抢高质量模型和算力”。如果需求远远大于供给,那么顶尖模型公司就不需要把价格压到成本线附近。它们可以按照 AI 为客户创造的经济价值定价,而不是按照单位 token 成本定价。这也是 AI 产业和传统软件很不一样的地方。传统软件一旦边际成本趋近于零,竞争可能把价格不断压低。但 AI 推理不是零边际成本,它受制于真实的算力供给。因此笔者认为,短期内,顶尖模型公司的利润不会轻易消失。
五、Nvidia -- “AI 的中央银行”?
如果 Agentic AI 让 token 需求暴涨,那么最关键的问题就变成:谁控制 token 的生产资料?答案绕不开 Nvidia。Nvidia 不只是卖 GPU。它实际上控制了 AI 时代最关键的一整套系统能力:GPU、网络、软件栈、整机方案、供应链协同,以及对上游 TSMC wafer、HBM 和先进封装资源的获取能力。Nvidia 正在变成 AI 的中央银行。中央银行控制货币供给,而 Nvidia 控制 AI 算力供给。当算力是整个产业最稀缺的资源时,Nvidia 理论上拥有极强的定价权。但有意思的是,Nvidia 似乎并没有把价格涨到极限。从纯供需角度看,如果市场极度缺 GPU,Nvidia 完全可以继续大幅涨价。但现实中,Nvidia 似乎更愿意让 AI labs、云厂商、Neocloud 都保留一部分利润空间。为什么?因为 Nvidia 追求的可能不是短期利润最大化,而是长期生态最大化。如果 Nvidia 把所有利润都吃掉,下游玩家扩张能力会下降,监管风险会上升,竞争对手也会更有动力绕开 Nvidia。相反,如果它让生态里的其他参与者也赚到钱,整个市场会继续扩大,所有人也会更深地绑定在 Nvidia 平台上。这和台积电的策略其实很像。TSMC 在先进制程极度紧张时,也没有完全按照稀缺性把 wafer 价格涨到天花板,而是通过长期合约、产能承诺、预付款等方式变现,同时维持客户关系和产业生态稳定。Nvidia 现在做的,某种程度上也是同样的事:不把价格一次性推到极限,而是通过控制供给、扩大生态、压制替代方案,等待未来更大的价值定价空间。