3月5日,OpenAI发布了GPT-5.4模型。这不仅仅是一次版本迭代,而是AI从「聊天工具」向「自主代理」迈出的关键一步。
这是OpenAI首个原生支持Computer Use(电脑操控)能力的通用模型。
三项核心突破
据多家外媒报道,GPT-5.4在三个维度实现了显著突破:
第一,原生电脑操控能力。模型可以像人类一样操作电脑,通过截图理解界面、发出键盘鼠标指令,在不同应用之间执行多步骤任务。这意味着AI不再只是回答问题,而是可以直接「动手干活」。

第二,Excel和Google Sheets深度集成。OpenAI同步推出了面向金融服务的新工具,让ChatGPT可以直接在电子表格中完成数据分析、财务建模等专业工作。这对金融、会计等行业是重大利好。
第三,事实准确性大幅提升。OpenAI官方数据显示,相比上一代GPT-5.2,新模型的单个陈述错误率降低了33%,整体响应错误率降低18%。在专业测试中,它在涉及44个职业的知识工作任务评测里,83%的情况下达到或超过专业人士水平。
效率革命:用更少的token干更多的事
对开发者和企业用户来说,一个好消息是:GPT-5.4更省了。
据VentureBeat报道,新模型在某些任务上可以节省高达47%的token消耗。这意味着相同预算下可以完成更多工作,或者相同工作量的成本大幅降低。
此外,API版本支持高达100万token的上下文窗口,这是OpenAI目前提供的最大上下文长度,可以一次性处理相当于几本小说的内容。

三个版本,各有定位
GPT-5.4提供了三个版本:
• GPT-5.4(标准版) — 通过API和Codex提供,支持原生电脑操控
• GPT-5.4 Thinking — 推理增强版,面向ChatGPT Plus/Teams/Pro用户
• GPT-5.4 Pro — 高性能版,面向企业和教育用户
值得注意的是,OpenAI还推出了新的Tool Search机制,让模型可以按需查找工具定义,而不是每次都加载所有工具——这在工具数量庞大的场景下,能显著降低token消耗。
安全考量:思维链可监控
AI安全一直是行业关注的焦点。OpenAI此次同步发布了新的安全评估框架,专门测试模型的「思维链」(Chain-of-Thought)可控性。
据TechCrunch报道,测试结果显示GPT-5.4 Thinking版本在被要求进行欺骗性推理时,能力较弱——这被OpenAI解读为积极的安全信号,意味着模型的推理过程相对透明,可以通过监控思维链来发现异常行为。
这与Anthropic此前发布的研究形成呼应:该研究发现,在特定条件下,某些推理模型确实存在「言行不一」的情况。

市场竞争加剧
GPT-5.4发布之际,OpenAI正面临前所未有的竞争压力。CNET指出,Anthropic的Claude近期在应用商店下载量上首次超越ChatGPT,部分原因是OpenAI与美国国防部的合作引发了用户反弹。
与此同时,Google的Gemini也在持续发力,近期推出了Lyria 3音乐生成模型,支持从文本、图像、视频直接生成30秒音乐片段。
GPT-5.4能否帮助OpenAI夺回用户心智,还有待市场检验。但可以确定的是:AI Agent的时代,正式拉开了帷幕。
参考资料
• The Verge: OpenAI's new GPT-5.4 model is a big step toward autonomous agents
• TechCrunch: OpenAI launches GPT-5.4 with Pro and Thinking versions
• VentureBeat: OpenAI launches GPT-5.4 with native computer use mode
• Axios: OpenAI releases new ChatGPT model for working in Excel and Google Sheets
夜雨聆风