大家好,我是老周。
今天跟大家说一个有趣的发现:大模型越来越卷了!两天两版的事情也发生了!
两天。
就在两天前,GPT-5.3 Instant刚刚推出。
两天后的今天,OpenAI马不停蹄地上线GPT-5.4。
行,你们是真不给人喘气的机会。
01
先上结论:GPT-5.4,Thinking + Pro 两个版本,同步上线ChatGPT、API和Codex。
OpenAI给它的定位是——
「our most capable and efficient frontier model for professional work」。
翻译成人话:最能打、最省钱、最能干活的。
如果说前两天发布的GPT-5.3 Instant只是让对话更丝滑的「开胃菜」,那今天这盘GPT-5.4就是实打实的「硬菜」。
而且这道菜,非常有料。
02
先讲这次最炸的功能。
GPT-5.4是OpenAI第一个原生支持「电脑操作」的通用模型。
什么意思?
它能看你的屏幕截图,能自己移动鼠标,能敲键盘,能在不同应用之间跳来跳去完成多步骤任务 —— 比如你让它帮你填个Excel表,它能自己打开表格软件,找到对应的单元格,把数据敲进去,然后再给你发个邮件说「填好了」。
这些能力直接内置在模型里,不需要额外调用什么Agent工具。
用OpenAI自己的话说:「模型即Agent」。
我知道你在想什么:这玩意儿之前不也有吗?Anthropic不是早就搞过吗?
别急,看数据。
OSWorld是目前最权威的「AI操作电脑」测试。在这个测试里:
GPT-5.4 成功率 75%
GPT-5.2 只有 47.3%
人类基准 72.4%
看到那个数字了吗?
AI第一次在电脑操作任务里,整体表现超过人类水平。
作为对照组,Anthropic的Claude Opus 4.6在同一个测试里得分72.7%,刚好和人类打平 。GPT-5.4这次直接把Claude甩开了2.3个百分点。
当然,得说句公道话:这个「超越人类」是在特定测试环境下的表现。真实世界里的破电脑、弹窗广告、突然崩溃的软件——这些坑AI能不能避开,还得实测才知道。
但无论如何,75%对72.4%,这个数字本身就已经是个里程碑。
03
再聊一个用起来很爽的新功能。
以前用ChatGPT,遇到复杂问题,点完发送就只能干看着那个「思考中」的转圈圈。如果AI想了半天,方向跑偏了,你烧掉的token全白费,只能重来一遍。
这种体验,谁用谁懂。
GPT-5.4 Thinking改了这个逻辑。它在思考之前,会先给你一个「思考计划」——告诉你它打算怎么处理这个问题 。
然后,你可以在它回答的过程中随时打断。
觉得方向不对?打断,换个方向。忘了加某个条件?打断,补上。想让它换个角度思考?打断,直接说。
官方管这叫:「You can steer it mid-response」。
实测这个功能其实已经灰度很多天了,用过的应该都知道有多香。以前是一个回合制游戏,你发一句它回一段;现在变成了实时协作,你俩一起把问题搞定。
这种体验上的升级,有时候比参数提升更值钱。
04
上下文窗口也升级了。
GPT-5.4支持100万tokens上下文了。
之前的GPT-5.2是40万,这次直接翻了2.5倍。
100万tokens是什么概念?大概能把《三体》三部曲的其中一部完整塞进去,然后跟AI讨论里面的伏笔和逻辑。
不过有个细节要注意:100万只在API和Codex里。
ChatGPT里手动选Thinking,Pro用户能用40万上下文,其他付费用户是25.6万 。虽然缩水了,但也够用了——40万字相当于一本专业教材的体量。
另外,思考深度也能手动调节。
Plus和Business用户可以选Standard或Extended,Pro用户还多两档Light和Heavy。日常问题Standard就够,遇到硬骨头再上Heavy。这种「按需分配」的设计,比一刀切合理多了。
网页版和安卓已经推送,iOS也快了。
05
OpenAI这波更新,明摆着是冲着「AI办公」去的。
他们用了一个叫GDPval的测试,专门评估「AI能不能替你干活」 。这个测试覆盖了44个职业的真实工作任务——做PPT、填表格、写分析报告,全是打工人每天在做的那些事。
结果:
GPT-5.4 83%;
GPT-5.2 70.9%;
翻译一下:每10次和行业专家对比,GPT-5.4有8次以上能打赢或打平。
更具体的数据:在模拟初级投行分析师的表格建模任务中,GPT-5.4平均得分87.3%,而GPT-5.2只有68.4%。
在PPT制作测试里,人类评审在68%的情况下更偏好GPT-5.4生成的演示文稿,理由是「美感更强、视觉变化更丰富、图像运用更有效」 。
OpenAI还同步发布了「ChatGPT for Excel」插件。你可以直接在表格里调用GPT-5.4做分析,所有付费用户都能用——不过目前只对美国、加拿大和澳大利亚开放 。和之前写过的「Claude in Excel」如出一辙。
幻觉也降了。
单条事实性错误概率比GPT-5.2降了33%,完整回答出错率降了18%。
06
得说句公道话。
GPT-5.4再怎么强大,也是有边界的。
OpenAI这次的策略很明确:专业知识和电脑操作是GPT-5.4的主场。
有别于AI编程无人能敌的Anthropic Claude Opus 4.6和抽象推理最强的谷歌Gemini 3.1 Pro。
07
最后,说一说实用的信息。
GPT-5.4 Thinking:所有ChatGPT付费用户都能用 。Plus和Business每周3000次额度,Pro不限量。需要注意的一点:Auto模式遇到复杂问题会自动路由到GPT-5.4 Thinking,当然,这部分不要钱。
GPT-5.4 Pro:只对ChatGPT Pro、Business、企业和教育用户开放 。
免费用户:只能用GPT-5.3,每5小时10条。
API定价:
GPT-5.4:每百万tokens输入2.5美元,输出15美元;
GPT-5.4 Pro:输入30美元/百万tokens,输出180美元/百万tokens;
不过OpenAI的解释是:
虽然单价涨了,但因为token效率提升,很多任务的总成本反而会降。在Scale的MCP Atlas基准测试中,启用工具搜索后,总token消耗量减少了47%。
写在最后
前天GPT-5.3 Instant,今天GPT-5.4。
OpenAI这更新节奏,像极了考前突击复习——恨不得把所有知识点一夜之间塞进脑子里。
但这种卷,对用户来说是好事。
GPT-5.4这次带来的原生电脑操作能力,某种程度上把「AI助手」这个概念往前推了一步。从「能聊」到「能干」,这个跨越花了一年多。下一步是什么?是AI能替我们开会?还是能替我们接电话?
我不知道。
但我知道的是:
这次更新后,你的电脑里可能真的住进了一个不用发工资的「数字牛马」。
至于,它能不能帮你干好活,达到你的预期,用用就知道了。
真的,别想那么多,
行动起来,用就完了。
------------END------------
感谢您愿意花费宝贵的时间阅读老周AI旅记。这是我2026年第 22 篇文章,欢迎大家阅读&交流!
夜雨聆风