AI 不只是降本增效,也是企业里一张全新的预算表

Box CEO Aaron Levie 上周发了条推文，说出了很多用 AI 来降本增效的公司大概率会遇到的问题：

"Token budgeting is becoming a major topic in larger enterprises."

翻译过来就是：Token 预算管理，正在成为大型企业的核心管理议题。

你可能觉得奇怪——Token 不就是 API 调用的费用吗？怎么会变成"核心管理议题"？

因为 Agent 时代的 Token 消耗，跟"API 调用的费用"根本不是一回事。

01 | 工具费？预算表？Token 成本的真实结构

大多数人对 AI 成本的理解，停留在第一层：API 调用费用。

用了多少 Token，花多少钱，月底看账单就行。

但 Agent 时代，这个理解已经不够了。

第二层成本：基础设施。

Anthropic 平台团队的工程负责人 Caitlin 在最近一期播客里提到过：很多团队花了大量精力做 Prompt 工程和 Harness 调优，以为那是关键，结果真正部署的时候才发现，基础设施才是真正卡脖子的地方。

沙箱隔离、长时运行、状态持久化、扩缩容，这些都不是"API 费用"能覆盖的。你的 Agent 跑在一个云服务器上，服务器断了，Agent 就死了。你要让它 7×24 小时在线、多 Agent 协作、安全隔离，每一项都是真金白银。

Stripe 做了 Minions，Ramp 也做了类似系统。这些"AI 领先公司"都有专门的开发者生产力团队在维护 Agent 基础设施。这不是顺带手搞一下而已，这是正儿八经的工程投入。

第三层成本：组织管理。

Agent 能跑越来越长的任务，Token 消耗跟着飙升。问题是：谁来决定 Token 花在哪儿？

Levie 的观点是：你不想在低价值任务上烧光月度预算，然后高价值任务被卡住。但大公司对 Agent 在干什么、花了多少 Token，几乎没有可见性。

FirstMark 合伙人 Matt Turck 从另一个角度进行了分析：AI Agent 需要身份、角色、权限、预算、审计日志。这不就是企业的 headcount 的吗？只不过占这 headcount 的不是人，是 Agent。

三层成本叠在一起，你就明白为什么 Levie 说"Token 需要像人力预算、营销预算一样被精细管理"了。

企业管人力预算、管营销预算，现在多了"Agent 算力预算"。逻辑一模一样：谁用、用多少、用在哪儿、怎么审计。

Token 不是工具费用。它是一张预算表。

02 | Shopify 的"无限 Token"是怎么翻车的

如果上面的分析听起来还像理论，那 Shopify 的故事就是具体的案例。

Shopify 一开始的策略很豪横：不限 Token 供给，但限制最低模型质量。员工不得使用低于 Opus 4.6 的模型，部分人用 GPT 5.4 Extra High——但用量不限。

听起来很爽对吧？

2025 年 12 月，事情起了变化。Shopify 工程负责人 Mikhail 把这叫做"相变"，模型质量终于跨过了某个门槛，然后用量爆发式增长。

消耗分布越来越不均匀，头部用户的增速远超中位数用户。Mikhail 开始担忧："a year, there will be one person consuming all the tokens"。

几个人、几个 Agent，就能吃掉整个公司的 Token 预算。这不是假设，是 Shopify 正在经历的事。

Mikhail 还观察到一个"反例"：并行跑多个互不通信的 Agent。Token 消耗翻倍，但效果并没有翻倍，纯粹浪费。

而最大的成本压力来自 SimGym——Shopify 的一个 AI 训练环境，需要跑多模态模型和无头浏览器农场，工作负载完全违反标准 LLM 服务的假设。Mikhail 直言："right now my problem is how to pay for it all"。

"我最大的问题是怎么付钱。"——这是一个给全公司提供无限 Token 的人说的话。

Shopify 的应对策略也值我们思考一下：

•模型蒸馏：把大模型蒸馏到 Liquid AI 的小模型（3 亿~80 亿参数），用于搜索理解、商品分类等特定任务，推理成本大幅下降

•推理优化：与 CentML（已被 NVIDIA 收购）和 Fireworks 合作，压缩推理成本

•预算重分配：Mikhail 提出一个关键指标——生成阶段 vs 审查阶段的 Token 预算比例。他的判断是：审查上花贵模型，生成上省 Token。不是所有环节都需要最贵的模型

注意到了吗？Shopify 的应对不是"限制用量"，而是把 Token 当预算来管。哪些环节该花、哪些环节该省、怎么分配才合理。

Levie 的判断，不是空谈。

03 | 你在 Token 成本的哪一层？

Shopify 的故事不是孤例。每一个在认真用 AI Agent 的团队，迟早都会有这个困扰。

问题是你现在在哪一层？

阶段一：工具费思维

大多数团队在这里。

特征：Token 是 IT 团队预算里的一行，没人专门管。月度 API 账单在涨，但没人知道哪个团队、哪个项目、哪个 Agent 花了多少。

警报：CFO 问"这个月 AI 费用怎么又超了"，没人答得上来。

风险：低价值 Agent 悄悄烧钱，高价值任务反而被限额。这就是 Levie 说的"你不想在低价值任务上烧光月度预算，然后高价值任务被卡住"。

如果你在这里，第一件事：建设 Token 消耗的可见性。先搞清楚 Token 花在哪？哪个团队、哪个 Agent、哪类任务。没有可见性，一切管理都是盲猜。

阶段二：预算表思维

少数前沿团队在这里。

特征：Token 预算分到具体团队或项目，有监控和审计。

标志：部门负责人开始问"我们团队这个月的 AI 预算还剩多少"。

最该做的事：分预算池。不要让所有团队共享一个大池子。Shopify 的教训已经说明，头部效应会让几个 Agent 吃掉大部分预算。每个团队有独立的预算额度，花超了自己负责。

阶段三：组织预算思维

Levie 描述的未来。

特征：Agent 算力像人力预算一样进入组织预算，非技术部门的 Agent 也在跑，Token 不再是 IT 部门的专属成本。

标志：市场部在跑文案审核 Agent，法务部在跑合同审查 Agent，每个部门都有自己的 AI 算力支出。

最该做的事：预算分配策略 + 审计工具 + 优先级管理。当 Agent 算力进入组织预算，你需要的不只是 IT 工具，而是类似 FinOps 的全新品类。

这三个阶段不是"选哪个"的问题，是"你在哪"的问题。需要实事求是的面对企业的状况，不承认自己还在阶段一，就永远到不了阶段二。

04 | 现在就能做三件事

不管你在哪个阶段，三件事现在就能做：

1. 建设 Token 可见性

先搞清楚 Token 花在哪。哪个团队、哪个 Agent、哪类任务消耗最多。没有数据，一切判断都是拍脑袋。

2. 分预算池

不要共享大池子。Shopify 的教训：头部用户会吃掉绝大部分预算。给每个团队独立的 Token 预算额度，花超了自己看着办。

3. 贵模型用在刀刃上

Shopify 的经验：审查、判断、决策环节用贵模型，生成环节用便宜的。不是所有 Token 都值得花 Opus 的价。

Levie 最后提到："We'll need all new software just to solve this problem, and it's probably an opportunity for startups in its own right."

需要全新的软件来解决这个问题，这本身就是创业机会。

他说的不是"更好的 API 网关"或"更便宜的推理服务"，而是一个全新的企业软件品类，类似于云时代的账单管理系统 FinOps，只不过管的是 Token 而不是云资源。

Anthropic 的平台团队在播客里描绘了一个更远的愿景：未来你只需要定义两件事：结果和预算。模型选择、Agent 编排、架构设计，全部自动化。

"结果+预算"，听起来简单，但仔细想想：这不就是所有预算管理的终极形态吗？你告诉财务"我要达成 X，预算是 Y"，剩下的怎么分配，系统自己搞定。

回到开头那个问题：AI 到底能不能降本？

AI 不只会让你省钱。它也会让你重新学会管钱。

而那些率先把 Token 从"工具费用"当成"预算"来进行管理的团队，会比所有人更早走出成本失控的泥潭。不是因为他们用的 Agent 更少，而是因为他们知道 Token 该花在哪。