GPT-5.4来了:OpenAI首个「电脑操控」模型,AIAgent时代正式开启

3月5日，OpenAI发布了GPT-5.4模型。这不仅仅是一次版本迭代，而是AI从「聊天工具」向「自主代理」迈出的关键一步。

这是OpenAI首个原生支持Computer Use（电脑操控）能力的通用模型。

三项核心突破

据多家外媒报道，GPT-5.4在三个维度实现了显著突破：

第一，原生电脑操控能力。模型可以像人类一样操作电脑，通过截图理解界面、发出键盘鼠标指令，在不同应用之间执行多步骤任务。这意味着AI不再只是回答问题，而是可以直接「动手干活」。

第二，Excel和Google Sheets深度集成。OpenAI同步推出了面向金融服务的新工具，让ChatGPT可以直接在电子表格中完成数据分析、财务建模等专业工作。这对金融、会计等行业是重大利好。

第三，事实准确性大幅提升。OpenAI官方数据显示，相比上一代GPT-5.2，新模型的单个陈述错误率降低了33%，整体响应错误率降低18%。在专业测试中，它在涉及44个职业的知识工作任务评测里，83%的情况下达到或超过专业人士水平。

对开发者和企业用户来说，一个好消息是：GPT-5.4更省了。

据VentureBeat报道，新模型在某些任务上可以节省高达47%的token消耗。这意味着相同预算下可以完成更多工作，或者相同工作量的成本大幅降低。

此外，API版本支持高达100万token的上下文窗口，这是OpenAI目前提供的最大上下文长度，可以一次性处理相当于几本小说的内容。

GPT-5.4提供了三个版本：

• GPT-5.4（标准版） — 通过API和Codex提供，支持原生电脑操控

• GPT-5.4 Thinking — 推理增强版，面向ChatGPT Plus/Teams/Pro用户

• GPT-5.4 Pro — 高性能版，面向企业和教育用户

值得注意的是，OpenAI还推出了新的Tool Search机制，让模型可以按需查找工具定义，而不是每次都加载所有工具——这在工具数量庞大的场景下，能显著降低token消耗。

AI安全一直是行业关注的焦点。OpenAI此次同步发布了新的安全评估框架，专门测试模型的「思维链」（Chain-of-Thought）可控性。

据TechCrunch报道，测试结果显示GPT-5.4 Thinking版本在被要求进行欺骗性推理时，能力较弱——这被OpenAI解读为积极的安全信号，意味着模型的推理过程相对透明，可以通过监控思维链来发现异常行为。

这与Anthropic此前发布的研究形成呼应：该研究发现，在特定条件下，某些推理模型确实存在「言行不一」的情况。

GPT-5.4发布之际，OpenAI正面临前所未有的竞争压力。CNET指出，Anthropic的Claude近期在应用商店下载量上首次超越ChatGPT，部分原因是OpenAI与美国国防部的合作引发了用户反弹。

与此同时，Google的Gemini也在持续发力，近期推出了Lyria 3音乐生成模型，支持从文本、图像、视频直接生成30秒音乐片段。

GPT-5.4能否帮助OpenAI夺回用户心智，还有待市场检验。但可以确定的是：AI Agent的时代，正式拉开了帷幕。

• The Verge: OpenAI's new GPT-5.4 model is a big step toward autonomous agents

• TechCrunch: OpenAI launches GPT-5.4 with Pro and Thinking versions

• VentureBeat: OpenAI launches GPT-5.4 with native computer use mode

• Axios: OpenAI releases new ChatGPT model for working in Excel and Google Sheets