
【导读】:微软在2026年Build大会上,推出了新的代码模型MAI-Code-1-Flash时,在模型发布卡中首次加入了“平均token使用量”指标。表明模型能力评估不再只看性能分数,还要考察“每一美元能买到多少智能”,AI的竞争维度已从单一性能转向“性能+效率”的双维度竞争。
这个指标对于我们使用者来说就太友好了吧,
使用Claude和Codex的伙伴们,一天要烧掉多少token呢,
今天早上一技术圈的人还在吐槽,它用Codex开发,一天花了他700多块的token,我听了都心疼,
说句实在的,咱们牛马一天的酬劳才多少呢。
最近已经听到很多位伙伴吐槽Codex烧token太厉害了,
这也是好多伙伴不敢使用这些Agent的主要原因了。

所以当我听到这个指标的时候,我觉得简直时夯爆了。
各个层面看模型多会“过日子”
🧪 SWE-Bench Verified 得分
微软发布的 MAI-Code-1-Flash 模型在SWE-Bench Verified上拿了71.6分,
消耗的token只有Claude Haiku 4.5三分之一,

在解决复杂问题的token使用量比Claude Haiku 4.5减少了最高达60%,
等同于同样的预算,你能多用两倍次数。
📊 Artificial Analysis Intelligence Index 数据

厂商的“AI日子”怎么过
起因是Uber今年一季度都没过完,全年的AI预算就烧光了,
仅仅四个月,烧得一干二净,
CTO没办法,制定的新规已经落地:
给每个员工每月设了1500美元的额度上限,用Claude Code或者Cursor就要自己看着面板额度,超了就要走特批流程。

💰 Salesforce 花费 3 亿美元购买 tokens
Salesforce 的 CEO Marc Benioff亲自说,预计2026年要给Anthropic付3亿美元token费,主要用在编程上。
与此同时,从去年开始就停止招聘软件工程师了,
不是不招,而是内部AI工具已经把工程生产力拉高了30%以上,少招点人也行。
但是3亿美金买token,听起来豪横,怎么保证每个token都用在刀刃上呢,不然比养一个工程师团队都还烧钱。

AI 要不仅强,还要省
模型公司现在的竞争,已经从“单科状元”变成了“全能铁人”了。
既要智商在线,又得是个省油的灯。
微软这次开始在发布卡里列有token消耗,就是一个很明显的信号了。
这以后公司采购AI模型,就跟买车一样要看“百公里油耗”了。
对于我们这些天天使用AI工具的人来说,这种消息再好不过了。
要么同样的月费能用更多次,要么同样的任务能选更便宜的模型。
只能期待着大模型们变得又强又便宜了。
夜雨聆风