乐于分享
好东西不私藏

GPT-5.4|首个拥有原生电脑使用能力的通用模型

GPT-5.4|首个拥有原生电脑使用能力的通用模型

2026年3月6号,OpenAI正式发布了GPT-5.4 系列,GPT-5.4Thinking、API 和 Codex 中的GPT-5.4 。这是目前功能最强大、效率最高的专业级模型。同时,OpenAI也发布了 ChatGPT 和 API 中的GPT-5.4 Pro,专为那些希望在复杂任务中实现极致性能的用户而设计。

GPT-5.4 将近期在推理、编码和智能体工作流程方面取得的最佳进展整合到一个前沿模型中。它融合了GPT-5.3-Codex业界领先的编码能力,同时改进了模型在各种工具、软件环境以及涉及电子表格、演示文稿和文档的专业任务中的运行方式。最终,该模型能够准确、高效地完成复杂的实际工作,以更少的反复沟通交付所需的结果。

在 ChatGPT中,GPT-5.4 Thinking 现在可以预先提供其思考计划,因此您可以在它运行过程中随时调整方向最终无需额外迭代即可获得更符合您需求的答案。GPT-5.4 Thinking 还改进了深度网络搜索,尤其是在处理高度具体的查询时,同时能够更好地保留需要长时间思考的问题的上下文信息。这些改进共同作用,意味着能够更快地获得更高质量、更贴合当前任务的答案。

在 Codex 和 API 中,GPT-5.4 是OpenAI发布的首个具备原生、最先进的计算机使用能力的通用模型,它使智能体能够操作计算机并在各种应用程序中执行复杂的流程。它支持高达100 万个上下文标记,使智能体能够规划、执行和验证长期任务。GPT-5.4 还通过工具搜索功能改进了模型在大型工具和连接器生态系统中的运行方式,帮助智能体更高效地找到并使用合适的工具,同时又不牺牲智能水平。最后,GPT-5.4 是迄今为止标记效率最高的推理模型,与 GPT-5.2 相比,它解决问题所需的标记数量显著减少,这意味着更少的标记使用和更快的速度。

  • 知识工作:GPT-5.4 在 GPT-5.2 的通用推理能力基础上,针对专业人士关心的实际任务,提供了更加一致和完善的结果。在GDPval测试中,GPT-5.4 达到了新的水平,在 44 个职业中测试智能体生产明确知识工作的能力,在83.0%的比较中达到或超过了行业专业人士的水平,而 GPT-5.2 的这一比例为70.9%。

  • 计算机应用与视觉:GPT-5.4 是我们首个具备原生计算机使用能力的

通用模型,对于开发者和智能体而言都是一次重大飞跃。它是目前开发者构建智能体以完成跨网站和软件系统的实际任务的最佳模型。在测试浏览器使用情况的WebArena-Verified测试中,GPT-5.4在使用 DOM 和屏幕截图两种交互方式时,成功率高达67.3% ,领先于 GPT-5.2 的65.4%。在同样测试浏览器使用情况的Online-Mind2Web测试中,GPT-5.4 仅使用基于屏幕截图的观察结果,成功率就达到了92.8%,优于 ChatGPT Atlas 的代理模式(成功率为70.9%)

GPT-5.4 计算机性能的提升得益于其增强的通用视觉感知能力。在MMMU-Pro测试中(该测试旨在检验模型的视觉理解和推理能力),GPT-5.4 在不使用任何工具的情况下取得了81.2% 的成功率,优于GPT-5.2 的79.5%。视觉感知能力的提升也体现在其文档解析能力的增强上。在OmniDocBench 测试中,GPT-5.4 在不使用任何推理工具的情况下,平均误差(以模型预测值与真实值之间的归一化编辑距离衡量)为0.109,优于 GPT-5.2 的0.140

  • 编码:GPT-5.4 结合了 GPT-5.3-Codex 的编码优势,并具备领先的知识处理和计算机使用能力,这在长时间运行的任务中尤为重要,因为模型可以利用工具、迭代并推进工作,从而减少人工干预。在 SWE-Bench Pro 测试中,GPT-5.4 的性能与 GPT-5.3-Codex 持平或更优,同时在推理过程中延迟更低。启用 Codex 中的 /fast 模式后,GPT-5.4 的 token 处理速度最高可提升 1.5 倍。它采用的是相同的模型和智能,只是速度更快。这意味着用户可以更流畅地完成编码任务、迭代和调试,保持高效的工作流程。开发者可以通过 API 使用优先级处理,以同样的速度访问 GPT-5.4 (在新窗口中打开)。在评估和内部测试中,我们发现 GPT-5.4 在复杂的前端任务中表现出色,其结果比我们之前推出的任何模型都更具美感和功能性。为了展示该模型在计算机使用和编码能力方面的改进,我们还发布了一项名为“剧作家(互动式)”的实验性 Codex 技能。(在新窗口中打开)这使得 Codex 可以直观地调试 Web 和 Electron 应用程序;它甚至可以在构建应用程序的同时对其进行测试。

  • 工具使用:GPT-5.4 显著提升了模型与外部工具的协作能力。现在,智能体可以在更大的工具生态系统中运行,更可靠地选择合适的工具,并以更低的成本和延迟完成多步骤工作流程。

  • 工具搜索:在 API 中,GPT-5.4 引入了工具搜索功能(在新窗口中打开)这使得模型能够在拥有众多工具的情况下高效运行。以前,当给模型分配工具时,所有工具的定义都会预先包含在请求请求中。对于拥有大量工具的系统,这可能会在每个请求中增加数千甚至数万个令牌,从而增加成本、降低响应速度,并使上下文信息过于拥挤,而这些信息模型可能永远不会用到。通过工具搜索,GPT-5.4 会收到一个轻量级的可用工具列表以及相应的工具搜索功能。当模型需要使用某个工具时,它可以查找该工具的定义,并将其添加到当前的对话中。这种方法显著减少了工具密集型工作流程所需的令牌数量,并保留了缓存,从而提高了请求速度并降低了成本。它还使代理能够可靠地与规模更大的工具生态系统协同工作。对于可能包含数万个工具定义令牌的 MCP 服务器而言,效率提升可能非常显著。

  • 代理工具调用:GPT-5.4 还改进了工具调用,使其在推理过程中(尤其是在 API 调用中)能够更准确、更高效地决定何时以及如何使用工具。与 GPT-5.2 相比,它在 Toolathlon 测试中以更少的回合数实现了更高的准确率。Toolathlon 是一项基准测试,用于测试 AI 代理使用真实世界工具和 API 完成多步骤任务的能力。例如,代理需要阅读电子邮件、提取作业附件、上传附件、批改作业并将结果记录到电子表格中。

  • 改进的网络搜索:GPT-5.4 在自主网络搜索方面表现更佳。在 BrowseComp 测试中(该测试衡量 AI 代理持续浏览网络以查找难以定位的信息的能力),GPT-5.4 比 GPT-5.2 提升了 17% ,而 GPT-5.4 Pro 则达到了 89.3%,创下了新的最高水平。实际上,这意味着 GPT-5.4 Thinking 更擅长回答需要整合网络上多个信息源的问题。它可以更持久地进行多轮搜索,以识别最相关的信息源,尤其适用于“大海捞针”式的问题,并将它们综合成清晰、论证充分的答案。

  • 供货情况和价格:GPT-5.4 今天开始在 ChatGPT 和 Codex 上逐步推出。在 API 中,GPT-5.4 现已可用。此外,API 中还提供了 GPT-5.4 Pro,供需要在最复杂任务上获得最佳性能的开发者使用。ChatGPT 的 GPT-5.4 Thinking 模型从今天起面向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking 模型。付费用户仍可在“旧版模型”部分的模型选择器中继续使用 GPT-5.2 Thinking 模型三个月,之后该模型将于 2026 年 6 月 5 日正式停用。企业版和教育版用户可通过管理员设置启用提前访问功能。GPT-5.4 Pro 模型面向 Pro 和企业版用户开放(在新窗口中打开)ChatGPT 中的 GPT-5.4 思维模式与 GPT-5.2 思维模式保持不变。

  • GPT-5.4 是我们首个融合了 GPT-5.3-codex 前沿编码能力的主流推理模型,目前正在 ChatGPT、API 和 Codex 中全面推广。我们将其命名为 GPT-5.4,旨在体现这一飞跃,并简化用户在使用 Codex 时选择不同模型的过程。随着时间的推移,我们的 Instant 模型和 Thinking 模型将以不同的速度发展演进。Codex 中的 GPT-5.4 包含对 1M 上下文窗口的实验性支持。开发者可以通过配置 `gpt-5.4.1` 和 `gpt-5.4.1` 来尝试此功能。超出标准 272K 上下文窗口的请求将以正常速率的两倍计入使用限制。

  • 在 API 中,GPT-5.4 的代币价格高于 GPT-5.2,以体现其增强的功能;同时,其更高的代币效率有助于减少许多任务所需的代币总数。批量处理和灵活处理的价格为标准 API 费率的一半,而优先处理的价格为标准 API 费率的两倍。

资料来源:

https://openai.com/index/introducing-gpt-5-4/

AI|OpenAI|推出GPT-5.3 Instant

GPT-5.2|针对专业性知识工作能力最强前沿模型

GPT-5.1: 更智能、更具对话性的聊天GPT
GPT-5发布

GPT-4发布

【免责声明】本文信息均来源于公开资料及合法获得的相关外部报告资料,华鑫证券对这些信息的准确性及完整性不作任何保证,不保证其中的信息已做最新变更。本文信息仅供参考。在任何情况下,本文中的信息均不构成对任何人的投资建议。本公司及其本公司员工对使用本文内容所引发的任何直接或间接损失概不负责。