乐于分享
好东西不私藏

OpenAI开始不卷Token了?

OpenAI开始不卷Token了?

研究员|冯皓钦

北京时间凌晨,OpenAI发布GPT-5.5。

从基准测试到实际案例,这一代模型短板不明显:编程、知识工作、计算机操作、科研辅助,都直奔“能直接交付结果”。

GPT-5.5值得关注是它在能力结构上出现了新的不对称。

01

能力越强,越不愿“承认不知道”

GPT-5.5在多个维度上的提升是明确的。

Terminal-Bench 2.0达到82.7%,GDPval达到84.9%,OSWorld接近79%,在真实工作流和计算机操作场景中都明显领先上一代模型和主要对手。同时,它在长任务中的表现也更稳定,能够持续运行数小时,完成跨步骤、跨工具的复杂流程。

“更强”的数据之外,有一组指标:Artificial Analysis的AA-Omniscience测试中,GPT-5.5的准确率当前最高,但幻觉率高达86%,高于Claude Opus 4.7的36%。

这是一个结构性的矛盾。模型知道得更多,却更不愿意承认自己不知道。换句话说,它在“不确定场景”里的行为发生了偏移,从“保守回答”转向“倾向给出一个答案”。

过去,这个问题更多影响的是“答案质量”,在GPT-5.5,它开始影响“执行过程”。因为它不只是回答问题,还在:

·拆解任务

·调用工具

·生成中间结果

·推动流程继续往前走

一旦在某个关键节点出现错误判断,“继续往前推进”的能力会把错误放大。从结果上看,这一代模型不是一个谨慎的分析工具,更像一个高执行力的初级员工。

02

token不再是关键变量

GPT-5.5发布后,最直观的变化之一是价格。

API定价从GPT-5.4的2.5/15美元,直接上涨到5/30美元(每百万token)。就目前的使用情况来看,token使用量在明显下降。

它在Expert-SWE中,token使用量接近减半;客服与知识任务中,token消耗显著下降。整体token使用量下降约40%,实际任务成本只增加约20%左右。

这不是简单的“效率优化”,而是模型在“推理路径”上变短了。即它不再通过“更多步骤”逼近答案,而是更快收敛到一个结果。

这带来两个直接影响:第一,成本结构开始变化。过去成本取决于“说了多少话,消耗了多少token”,GPT-5.5取决于“走了多少步骤”;第二,模型行为更“果断”。路径更短,意味着中间验证、自我纠错机会更少。

这和高幻觉率,是同一个方向的结果。最终表现出来的,就是效率提升和不确定性的判断能力,没有得到同步提升。

GPT-5.5的重点在于,它把两件原本可以分开看的问题叠加在了一起。一边是更强的执行能力,让模型可以真正参与工作流程;另一边是更激进的决策倾向,让模型在不确定时更少停下来。这使得GPT-5.5不只是一个更好的工具,而是一个更接近“行动者”的系统。

问题也正在这里。当一个系统开始主动推进任务,而不是被动提供答案时,“它什么时候是对的”和“它什么时候应该停下来”,就会一起成为使用者必须重新判断的问题。

编辑|邱慧

END