Box CEO Aaron Levie 上周发了条推文,说出了很多用 AI 来降本增效的公司大概率会遇到的问题:
"Token budgeting is becoming a major topic in larger enterprises."
翻译过来就是:Token 预算管理,正在成为大型企业的核心管理议题。
你可能觉得奇怪——Token 不就是 API 调用的费用吗?怎么会变成"核心管理议题"?
因为 Agent 时代的 Token 消耗,跟"API 调用的费用"根本不是一回事。
01 | 工具费?预算表?Token 成本的真实结构
大多数人对 AI 成本的理解,停留在第一层:API 调用费用。
用了多少 Token,花多少钱,月底看账单就行。
但 Agent 时代,这个理解已经不够了。
第二层成本:基础设施。
Anthropic 平台团队的工程负责人 Caitlin 在最近一期播客里提到过:很多团队花了大量精力做 Prompt 工程和 Harness 调优,以为那是关键,结果真正部署的时候才发现,基础设施才是真正卡脖子的地方。
沙箱隔离、长时运行、状态持久化、扩缩容,这些都不是"API 费用"能覆盖的。你的 Agent 跑在一个云服务器上,服务器断了,Agent 就死了。你要让它 7×24 小时在线、多 Agent 协作、安全隔离,每一项都是真金白银。
Stripe 做了 Minions,Ramp 也做了类似系统。这些"AI 领先公司"都有专门的开发者生产力团队在维护 Agent 基础设施。这不是顺带手搞一下而已,这是正儿八经的工程投入。
第三层成本:组织管理。
Agent 能跑越来越长的任务,Token 消耗跟着飙升。问题是:谁来决定 Token 花在哪儿?

Levie 的观点是:你不想在低价值任务上烧光月度预算,然后高价值任务被卡住。但大公司对 Agent 在干什么、花了多少 Token,几乎没有可见性。
FirstMark 合伙人 Matt Turck 从另一个角度进行了分析:AI Agent 需要身份、角色、权限、预算、审计日志。这不就是企业的 headcount 的吗?只不过占这 headcount 的不是人,是 Agent。
三层成本叠在一起,你就明白为什么 Levie 说"Token 需要像人力预算、营销预算一样被精细管理"了。
企业管人力预算、管营销预算,现在多了"Agent 算力预算"。逻辑一模一样:谁用、用多少、用在哪儿、怎么审计。
Token 不是工具费用。它是一张预算表。
02 | Shopify 的"无限 Token"是怎么翻车的
如果上面的分析听起来还像理论,那 Shopify 的故事就是具体的案例。
Shopify 一开始的策略很豪横:不限 Token 供给,但限制最低模型质量。 员工不得使用低于 Opus 4.6 的模型,部分人用 GPT 5.4 Extra High——但用量不限。
听起来很爽对吧?
2025 年 12 月,事情起了变化。Shopify 工程负责人 Mikhail 把这叫做"相变",模型质量终于跨过了某个门槛,然后用量爆发式增长。
消耗分布越来越不均匀,头部用户的增速远超中位数用户。Mikhail 开始担忧:"a year, there will be one person consuming all the tokens"。
几个人、几个 Agent,就能吃掉整个公司的 Token 预算。这不是假设,是 Shopify 正在经历的事。
Mikhail 还观察到一个"反例":并行跑多个互不通信的 Agent。Token 消耗翻倍,但效果并没有翻倍,纯粹浪费。
而最大的成本压力来自 SimGym——Shopify 的一个 AI 训练环境,需要跑多模态模型和无头浏览器农场,工作负载完全违反标准 LLM 服务的假设。Mikhail 直言:"right now my problem is how to pay for it all"。
"我最大的问题是怎么付钱。"——这是一个给全公司提供无限 Token 的人说的话。
Shopify 的应对策略也值我们思考一下:

注意到了吗?Shopify 的应对不是"限制用量",而是把 Token 当预算来管。哪些环节该花、哪些环节该省、怎么分配才合理。
Levie 的判断,不是空谈。
03 | 你在 Token 成本的哪一层?
Shopify 的故事不是孤例。每一个在认真用 AI Agent 的团队,迟早都会有这个困扰。
问题是你现在在哪一层?
阶段一:工具费思维
大多数团队在这里。
特征:Token 是 IT 团队预算里的一行,没人专门管。月度 API 账单在涨,但没人知道哪个团队、哪个项目、哪个 Agent 花了多少。
警报:CFO 问"这个月 AI 费用怎么又超了",没人答得上来。
风险:低价值 Agent 悄悄烧钱,高价值任务反而被限额。这就是 Levie 说的"你不想在低价值任务上烧光月度预算,然后高价值任务被卡住"。
如果你在这里,第一件事:建设 Token 消耗的可见性。 先搞清楚 Token 花在哪?哪个团队、哪个 Agent、哪类任务。没有可见性,一切管理都是盲猜。
阶段二:预算表思维
少数前沿团队在这里。
特征:Token 预算分到具体团队或项目,有监控和审计。
标志:部门负责人开始问"我们团队这个月的 AI 预算还剩多少"。
最该做的事:分预算池。不要让所有团队共享一个大池子。Shopify 的教训已经说明,头部效应会让几个 Agent 吃掉大部分预算。每个团队有独立的预算额度,花超了自己负责。
阶段三:组织预算思维
Levie 描述的未来。
特征:Agent 算力像人力预算一样进入组织预算,非技术部门的 Agent 也在跑,Token 不再是 IT 部门的专属成本。
标志:市场部在跑文案审核 Agent,法务部在跑合同审查 Agent,每个部门都有自己的 AI 算力支出。
最该做的事:预算分配策略 + 审计工具 + 优先级管理。当 Agent 算力进入组织预算,你需要的不只是 IT 工具,而是类似 FinOps 的全新品类。

这三个阶段不是"选哪个"的问题,是"你在哪"的问题。 需要实事求是的面对企业的状况,不承认自己还在阶段一,就永远到不了阶段二。
04 | 现在就能做三件事
不管你在哪个阶段,三件事现在就能做:
1. 建设 Token 可见性
先搞清楚 Token 花在哪。哪个团队、哪个 Agent、哪类任务消耗最多。没有数据,一切判断都是拍脑袋。
2. 分预算池
不要共享大池子。Shopify 的教训:头部用户会吃掉绝大部分预算。给每个团队独立的 Token 预算额度,花超了自己看着办。
3. 贵模型用在刀刃上
Shopify 的经验:审查、判断、决策环节用贵模型,生成环节用便宜的。不是所有 Token 都值得花 Opus 的价。
Levie 最后提到:"We'll need all new software just to solve this problem, and it's probably an opportunity for startups in its own right."
需要全新的软件来解决这个问题,这本身就是创业机会。
他说的不是"更好的 API 网关"或"更便宜的推理服务",而是一个全新的企业软件品类,类似于云时代的账单管理系统 FinOps,只不过管的是 Token 而不是云资源。
Anthropic 的平台团队在播客里描绘了一个更远的愿景:未来你只需要定义两件事:结果和预算。模型选择、Agent 编排、架构设计,全部自动化。
"结果+预算",听起来简单,但仔细想想:这不就是所有预算管理的终极形态吗?你告诉财务"我要达成 X,预算是 Y",剩下的怎么分配,系统自己搞定。
回到开头那个问题:AI 到底能不能降本?
AI 不只会让你省钱。它也会让你重新学会管钱。
而那些率先把 Token 从"工具费用"当成"预算"来进行管理的团队,会比所有人更早走出成本失控的泥潭。不是因为他们用的 Agent 更少,而是因为他们知道 Token 该花在哪。

夜雨聆风