对AI token工厂的理解
前言
黄仁勋在GTC 2026主题演讲中宣告:AI已全面迈入“推理与智能体时代”,未来数据中心将成为生产Token的“AI工厂”,每瓦电力生成的Token数量将决定商业命脉,预计到2027年英伟达将实现至少1万亿美元营收。怎么理解这个AI token工厂呢?
Token的供应商 – 云
主要有三类
这样就可以理解,为什么说剩下的某些厂商,会被淘汰了。
北美也是如此。Google的token消耗量全球断层领先 (2025/6,巴克莱报告,google token消耗一年增长50倍,是微软/ChatGPT的6倍)。
但是实际上,他是把AI嵌入后台业务,并非用户主动选择,用户是用也得用,不用也得用。
专门的GPU云例如某厂商,号称对标coreweave.当Token工厂的软硬件逐渐成熟,标准化,这些厂商会越来越没有前途。因其本质上,跟建房招租没有任何区别。除非,他利用风口赚到的钱,及时转型。在早期,必然是用赚到的钱,继续建新机房。但是后期,大概率要走上自己建机房,自己运营,精耕细作的道路。
普惠算力政府主导,国产替代,由于EUV光刻机的技术瓶颈限制,被制约了实际应用。但是,这是催熟国产必须付出的代价。
Token工厂的客户 – AI应用
传统的客户分类大家习惯粗略的按照企业市场和消费市场来划分
影响AI应用落地的主要技术特点 – 数学上不可解释大模型数学上的不可解释性问题,过于学术,不细说了。那么,针对此现状,要怎么办呢?大模型是一匹脱缰的野马,Claude最新大模型Mythos号称在未经专项安全训练的情况下,涌现出发现数千个 零日漏洞,并自主编写完整利用链的能力,覆盖所有主流操作系统和浏览器,就是典型的案例。现在能做的,就是给他套上马具(Harness)。
AI发展到如今,已经迭代过至少三代了。大模型:RNN->transformer->MoE工具软件:webpage(仅对话)->app(仅建议)->agent(直接操作文件)软件控制:prompt(怎么对话)->context(怎么长久对话)->harness(怎么有效对话)可以看到,能力是越来越强,但是约束也越来越多。
既要AI跑,又要Harness,就是因为在绝大多数领域,AI暂时还是锦上添花。在效率改进和风险这一对矛盾中,风险暂时还是矛盾的主要方面。即,我可以不用,但是用了,千万不能捅个大漏子。
怎么去评估到底能不能用呢?这里有一个现成的思路:制造业的FMEA - Failure Mode and Effects Analysis
给它评一个风险指数=风险概率x风险后果,风险指数不同,用户使用AI的意愿完全不一样。
因此,个人认为应按照风险指数=风险概率x风险后果来对客户需求分类,才能更清楚的看到,AI应用落地的顺序。同样是制造业工厂,OCR识别实际上已经落地了,但是敢把数据库交给AI的,还不多。
结论
从上述分析,可以看出AI应用将会在哪个行业最先出现独角兽:AI短剧
目前在这个赛道上是seedance 2.0抢占了先机,于 2026年2月12日 正式发布,但是推广规模远不如预期,市场传言有说是因为版权问题,有说因为转向付费意愿强烈的企业市场。但是实际上,个人比较怀疑是因为大模型的反蒸馏问题。如果辛辛苦苦搞出来的独角兽基座,被对手轻轻松松蒸馏走了,那就不是栽一个大跟头,是直接掉马里亚纳海沟了。
北美三大AI巨头——OpenAI、Anthropic 和 Google 在2026年4月罕见地放下了竞争,通过“前沿模型论坛”(Frontier Model Forum)组建了专项联盟,共同围剿“对抗性蒸馏”。
夜雨聆风