AI卷到最后,比的不仅是谁更强,更是谁省钱

【导读】：微软在2026年Build大会上，推出了新的代码模型MAI-Code-1-Flash时，在模型发布卡中首次加入了“平均token使用量”指标。表明模型能力评估不再只看性能分数，还要考察“每一美元能买到多少智能”，AI的竞争维度已从单一性能转向“性能+效率”的双维度竞争。

这个指标对于我们使用者来说就太友好了吧，

使用Claude和Codex的伙伴们，一天要烧掉多少token呢，

今天早上一技术圈的人还在吐槽，它用Codex开发，一天花了他700多块的token，我听了都心疼，

说句实在的，咱们牛马一天的酬劳才多少呢。

最近已经听到很多位伙伴吐槽Codex烧token太厉害了，

这也是好多伙伴不敢使用这些Agent的主要原因了。

所以当我听到这个指标的时候，我觉得简直时夯爆了。

各个层面看模型多会“过日子”

微软发布的 MAI-Code-1-Flash 模型在SWE-Bench Verified上拿了71.6分，

消耗的token只有Claude Haiku 4.5三分之一，

在解决复杂问题的token使用量比Claude Haiku 4.5减少了最高达60%，

等同于同样的预算，你能多用两倍次数。

GPT-5.5和Claude Opus 4.8的智能得分其实差不多，都在60分左右。

但如果真的跑一遍测试集，那成本就差了一大截了：

Opus 4.8要花到4685美元，GPT-5.5只要3357美元，贵了将近40%，

得分没高多少，钱包倒是瘦得挺快。

这直接关系到企业的使用成本，

好在官方控制台会显示消耗情况，这让产品和工程师提前计算预算，不会在季度末看到这爆炸的费用。

🚕 Uber 公司限制员工使用 AI

起因是Uber今年一季度都没过完，全年的AI预算就烧光了，

仅仅四个月，烧得一干二净，

CTO没办法，制定的新规已经落地：

给每个员工每月设了1500美元的额度上限，用Claude Code或者Cursor就要自己看着面板额度，超了就要走特批流程。

Salesforce 的 CEO Marc Benioff亲自说，预计2026年要给Anthropic付3亿美元token费，主要用在编程上。

与此同时，从去年开始就停止招聘软件工程师了，

不是不招，而是内部AI工具已经把工程生产力拉高了30%以上，少招点人也行。

但是3亿美金买token，听起来豪横，怎么保证每个token都用在刀刃上呢，不然比养一个工程师团队都还烧钱。

Mate更逗，内部曾经搞了个“tokenmaxxing排行榜”，谁用的token多谁就排前面，鼓励大家用AI，

结果就是悄悄下线了，因为发现那根本不是效率，而是浪费。

模型公司现在的竞争，已经从“单科状元”变成了“全能铁人”了。

既要智商在线，又得是个省油的灯。

微软这次开始在发布卡里列有token消耗，就是一个很明显的信号了。

这以后公司采购AI模型，就跟买车一样要看“百公里油耗”了。

对于我们这些天天使用AI工具的人来说，这种消息再好不过了。

要么同样的月费能用更多次，要么同样的任务能选更便宜的模型。

只能期待着大模型们变得又强又便宜了。