GPT-5.4突袭上线:电脑操作+百万上下文,这次真能当牛马用?

大家好，我是老周。

今天跟大家说一个有趣的发现：大模型越来越卷了！两天两版的事情也发生了！

两天。

就在两天前，GPT-5.3 Instant刚刚推出。

两天后的今天，OpenAI马不停蹄地上线GPT-5.4。

行，你们是真不给人喘气的机会。

01

先上结论：GPT-5.4，Thinking + Pro 两个版本，同步上线ChatGPT、API和Codex。

OpenAI给它的定位是——

「our most capable and efficient frontier model for professional work」。

翻译成人话：最能打、最省钱、最能干活的。

如果说前两天发布的GPT-5.3 Instant只是让对话更丝滑的「开胃菜」，那今天这盘GPT-5.4就是实打实的「硬菜」。

而且这道菜，非常有料。

02

先讲这次最炸的功能。

GPT-5.4是OpenAI第一个原生支持「电脑操作」的通用模型。

什么意思？

它能看你的屏幕截图，能自己移动鼠标，能敲键盘，能在不同应用之间跳来跳去完成多步骤任务 —— 比如你让它帮你填个Excel表，它能自己打开表格软件，找到对应的单元格，把数据敲进去，然后再给你发个邮件说「填好了」。

这些能力直接内置在模型里，不需要额外调用什么Agent工具。

用OpenAI自己的话说：「模型即Agent」。

我知道你在想什么：这玩意儿之前不也有吗？Anthropic不是早就搞过吗？

别急，看数据。

OSWorld是目前最权威的「AI操作电脑」测试。在这个测试里：

GPT-5.4 成功率 75%

GPT-5.2 只有 47.3%

人类基准 72.4%

看到那个数字了吗？

AI第一次在电脑操作任务里，整体表现超过人类水平。

作为对照组，Anthropic的Claude Opus 4.6在同一个测试里得分72.7%，刚好和人类打平。GPT-5.4这次直接把Claude甩开了2.3个百分点。

当然，得说句公道话：这个「超越人类」是在特定测试环境下的表现。真实世界里的破电脑、弹窗广告、突然崩溃的软件——这些坑AI能不能避开，还得实测才知道。

但无论如何，75%对72.4%，这个数字本身就已经是个里程碑。

03

再聊一个用起来很爽的新功能。

以前用ChatGPT，遇到复杂问题，点完发送就只能干看着那个「思考中」的转圈圈。如果AI想了半天，方向跑偏了，你烧掉的token全白费，只能重来一遍。

这种体验，谁用谁懂。

GPT-5.4 Thinking改了这个逻辑。它在思考之前，会先给你一个「思考计划」——告诉你它打算怎么处理这个问题。

然后，你可以在它回答的过程中随时打断。

觉得方向不对？打断，换个方向。忘了加某个条件？打断，补上。想让它换个角度思考？打断，直接说。

官方管这叫：「You can steer it mid-response」。

实测这个功能其实已经灰度很多天了，用过的应该都知道有多香。以前是一个回合制游戏，你发一句它回一段；现在变成了实时协作，你俩一起把问题搞定。

这种体验上的升级，有时候比参数提升更值钱。

04

上下文窗口也升级了。

GPT-5.4支持100万tokens上下文了。

之前的GPT-5.2是40万，这次直接翻了2.5倍。

100万tokens是什么概念？大概能把《三体》三部曲的其中一部完整塞进去，然后跟AI讨论里面的伏笔和逻辑。

不过有个细节要注意：100万只在API和Codex里。

ChatGPT里手动选Thinking，Pro用户能用40万上下文，其他付费用户是25.6万。虽然缩水了，但也够用了——40万字相当于一本专业教材的体量。

另外，思考深度也能手动调节。

Plus和Business用户可以选Standard或Extended，Pro用户还多两档Light和Heavy。日常问题Standard就够，遇到硬骨头再上Heavy。这种「按需分配」的设计，比一刀切合理多了。

网页版和安卓已经推送，iOS也快了。

05

OpenAI这波更新，明摆着是冲着「AI办公」去的。

他们用了一个叫GDPval的测试，专门评估「AI能不能替你干活」。这个测试覆盖了44个职业的真实工作任务——做PPT、填表格、写分析报告，全是打工人每天在做的那些事。

结果：

GPT-5.4 83%；

GPT-5.2 70.9%；

翻译一下：每10次和行业专家对比，GPT-5.4有8次以上能打赢或打平。

更具体的数据：在模拟初级投行分析师的表格建模任务中，GPT-5.4平均得分87.3%，而GPT-5.2只有68.4%。

在PPT制作测试里，人类评审在68%的情况下更偏好GPT-5.4生成的演示文稿，理由是「美感更强、视觉变化更丰富、图像运用更有效」。

OpenAI还同步发布了「ChatGPT for Excel」插件。你可以直接在表格里调用GPT-5.4做分析，所有付费用户都能用——不过目前只对美国、加拿大和澳大利亚开放。和之前写过的「Claude in Excel」如出一辙。

幻觉也降了。

单条事实性错误概率比GPT-5.2降了33%，完整回答出错率降了18%。

06

得说句公道话。

GPT-5.4再怎么强大，也是有边界的。

OpenAI这次的策略很明确：专业知识和电脑操作是GPT-5.4的主场。

有别于AI编程无人能敌的Anthropic Claude Opus 4.6和抽象推理最强的谷歌Gemini 3.1 Pro。

07

最后，说一说实用的信息。

GPT-5.4 Thinking：所有ChatGPT付费用户都能用。Plus和Business每周3000次额度，Pro不限量。需要注意的一点：Auto模式遇到复杂问题会自动路由到GPT-5.4 Thinking，当然，这部分不要钱。

GPT-5.4 Pro：只对ChatGPT Pro、Business、企业和教育用户开放。

免费用户：只能用GPT-5.3，每5小时10条。

API定价：

GPT-5.4：每百万tokens输入2.5美元，输出15美元；

GPT-5.4 Pro：输入30美元/百万tokens，输出180美元/百万tokens；

不过OpenAI的解释是：

虽然单价涨了，但因为token效率提升，很多任务的总成本反而会降。在Scale的MCP Atlas基准测试中，启用工具搜索后，总token消耗量减少了47%。

写在最后

前天GPT-5.3 Instant，今天GPT-5.4。

OpenAI这更新节奏，像极了考前突击复习——恨不得把所有知识点一夜之间塞进脑子里。

但这种卷，对用户来说是好事。

GPT-5.4这次带来的原生电脑操作能力，某种程度上把「AI助手」这个概念往前推了一步。从「能聊」到「能干」，这个跨越花了一年多。下一步是什么？是AI能替我们开会？还是能替我们接电话？

我不知道。

但我知道的是：

这次更新后，你的电脑里可能真的住进了一个不用发工资的「数字牛马」。

至于，它能不能帮你干好活，达到你的预期，用用就知道了。

真的，别想那么多，

行动起来，用就完了。

---

本文的内容写到这里就算结束了。如果这篇文章对你有用，别忘了点赞+在看，转发给身边同样想用AI提效的朋友。

---

------------END------------

感谢您愿意花费宝贵的时间阅读老周AI旅记。这是我2026年第 22 篇文章，欢迎大家阅读&交流！