乐于分享
好东西不私藏

GPT-5.4 发布:AI 首次在操作电脑上超越人类,但真相比数据复杂

GPT-5.4 发布:AI 首次在操作电脑上超越人类,但真相比数据复杂

公众号:AIGC 生活实验室
简介:探索 AI 如何改变工作与生活
作者:皮皮鲁呀鲁西西

2026 年 3 月 5 日,OpenAI 发布了 GPT-5.4。

这次发布有个数据挺意外的:在 OSWorld-Verified 基准测试里,GPT-5.4 操作电脑的成功率达到 75%,而人类平均水平是 72.4%。这是 AI 首次在真实桌面环境操作中超越人类。

但翻了一圈社区反馈,发现实际使用中的问题远比官方数据复杂。

1. 三个版本

GPT-5.4 这次发布了三个版本,定位完全不同。

GPT-5.4 标准版:面向日常专业工作,API 定价是输入 $2.50/百万 Token,输出 $15/百万 Token。这个价格大约是 Claude Opus 4.6($5/$25)的一半,性价比不错。ChatGPT Plus 用户($20/月)可以直接用。

GPT-5.4 Thinking:深度分析与推理版本,最大的亮点是可以在模型思考过程中介入调整方向。Medium 上有用户评价说:不用等它跑完再重新来,可以在思考过程中直接纠正方向。这对复杂任务的效率提升很明显。

GPT-5.4 Pro:高性能企业级版本,适合复杂任务。但这个版本有个坑 - 凤凰网上有用户吐槽:我只是发了一句 Hi,它就认真推理了 5 分钟,直接烧掉 80 美元。日常轻量任务根本不敢用 Pro 版。

说实话,选哪个版本得看具体场景。日常任务用标准版就够了,复杂任务再切换 Pro 版,不然成本会失控。

2. Computer Use:首次超越人类的 AI

GPT-5.4 最大的技术突破是原生计算机使用能力(Computer Use)

这不是简单的聊天升级,而是首个能直接操控电脑、跨软件执行工作流的 AI Agent。技术原理是通过屏幕截图理解界面,生成鼠标点击和键盘输入指令。它有两种操作方式:一种是通过 Playwright 等库编写代码操作计算机,另一种是直接从屏幕截图发出鼠标和键盘命令。

性能数据确实亮眼:

OSWorld-Verified:75.0%(人类 72.4%,GPT-5.2 为 47.3%)
Terminal-Bench 2.0:75.1%

有用户实测后评价:GPT-5.4 在 OSWorld-Verified 基准测试里,它操作电脑的成功率达到 75%,连人类平均水平的 72.4% 都被它超了

但实际使用中问题不少。

NiceKate AI 的实测视频里提到:Computer Use 功能在实际使用中还不够稳定,UI 自适应有问题,有时会把不该出现的提示语直接写进页面。图像理解能力还需要追赶 Gemini

跨软件操作时 UI 自适应不稳定,可能生成错误指令。所以在关键任务中,还是得增加人工验证环节,不要完全依赖自动化。

3. 百万上下文的真相

GPT-5.4 支持 105 万 Token 的上下文窗口,这是 OpenAI 迄今最大的。

听起来很美,但有个关键细节:272K tokens 是定价分界点。

0-272K:输入 $2.50/百万 Token
272K-1M:输入 $5.00/百万 Token(翻倍)

更关键的是性能问题。API 易技术博客的测试数据显示:

最佳性能区间:127K-272K tokens,准确率约 97%
性能下降区:512K-1M 区间准确率可能降至约 36%

知乎上有用户评价:百万上下文听起来很美,但超过 272K 后价格翻倍,而且准确率在 512K 以上会骤降至 36%。能用不等于好用,实际最佳区间只有 127K-272K

所以实际使用时,控制在 127K-272K 区间是性价比最优的选择。超过这个范围,要么价格翻倍,要么准确率骤降,都不划算。

4. 社区反馈汇总

基于社区反馈和实测数据,整理了几个典型场景的使用感受。

代码重构和大型项目分析

百万上下文窗口让开发者可以一次性处理整个代码库,不再需要分段处理。知乎上有开发者评价:GPT-5.4 的百万上下文窗口让我可以一次性处理整个代码库,不再需要分段处理。这对大型项目的重构和分析太有用了

在电子表格建模任务中,GPT-5.4 的得分从 68.4% 提升至 87.3%。爱范儿的评测数据显示:GPT-5.4 在 GDPval 测试中取得 83% 的胜率,意味着十次对比中有八次以上,行业专业人士认为 AI 的产出达到或超过了人类同行水准

这个提升是质的飞跃。

跨软件自动化工作流

从 Excel 提取数据、生成 PPT、发送邮件,GPT-5.4 通过 Computer Use 可以跨软件执行完整流程。官方演示的 OSWorld-Verified 测试成功率是 75%,超越人类 72.4%。

但实际使用中,UI 自适应问题会导致操作失败。所以在关键任务中,还是得增加人工验证环节。

Tool Search 功能的成本优势

Tool Search 功能让 Token 使用减少了 47%。DEV Community 上有开发者评价:Tool Search 功能让 Token 使用减少了 47%,这对我们这种高频调用 API 的团队来说,成本直接降了一半

这个功能的技术原理是:模型接收轻量级工具列表,按需查找完整工具定义,避免在每次请求中加载所有工具定义。在工具密集型工作流中,效率提升很明显。

推理能力的过度思考问题

GPT-5.4 的推理能力确实更强了,但有时候会过度思考。DEV Community 上有用户反馈:GPT-5.4 的推理能力确实更强了,但有时候会过度思考。简单任务也要推理很久,反而降低了效率。需要手动调整 reasoning effort

GPT-5.4 提供了四种推理模式:

none:低延迟交互(默认)
low:快速响应
medium:平衡模式
high:深度推理

简单任务用 none 或 low 模式就够了,不然会浪费时间和成本。

5. 三个必须知道的坑

坑 1:GPT-5.4 Pro 的成本失控

Pro 版会对简单任务进行深度推理,导致成本暴涨。凤凰网上有用户反馈:GPT-5.4 Pro 太贵了!我只是发了一句 Hi,它就认真推理了 5 分钟,直接烧掉 80 美元

解决方案:日常任务使用标准版,只在复杂任务时切换 Pro 版。

坑 2:百万上下文的性能陷阱

超过 272K 后价格翻倍,512K 以上准确率骤降至 36%。API 易技术博客的测试数据显示:虽然支持 105 万 Token,但超过 272K 后价格翻倍,512K 以上准确率骤降至 36%

解决方案:控制在 127K-272K 区间使用,这是性价比最优区间。

坑 3:Computer Use 的 UI 适配问题

跨软件操作时 UI 自适应不稳定,可能生成错误指令。NiceKate AI 的实测视频里提到:Computer Use 功能在实际使用中还不够稳定,UI 自适应有问题,有时会把不该出现的提示语直接写进页面

解决方案:在关键任务中增加人工验证环节,不要完全依赖自动化。

6. 值得关注的争议

OpenAI 与美国国防部的合作引发了不少争议。

Gizmodo 的报道指出:OpenAI 和美国国防部的合作让很多用户流失,Anthropic 拒绝了国防部合同反而被列为供应链风险。这种政治因素影响了用户对 GPT-5.4 的信任。

另一个争议是:GPT-5.4 是否真的超越了人类专家?

正方观点:OSWorld-Verified 测试中 GPT-5.4 达到 75%,超越人类 72.4%,这是客观数据。

反方观点:基准测试不等于真实工作场景,83% 的 GDPval 胜率是在特定任务下的表现,不代表全面超越。DEV Community 上有用户质疑:基准测试不等于真实工作场景,83% 的 GDPval 胜率是在特定任务下的表现,不代表全面超越

说实话,这个争议短期内不会有定论。但从实际使用来看,GPT-5.4 在专业工作能力上确实有质的提升。

7. 适合谁?不适合谁?

强烈推荐

需要跨软件自动化工作流的企业用户
处理大型代码库和长文档的开发者
需要专业知识工作能力的行业专家(金融、医疗、法律等)

谨慎使用

预算有限的个人开发者(考虑成本)
需要极致图像理解的多模态任务(考虑 Gemini)
简单日常任务(考虑 GPT-5.3 Instant)

写在最后

GPT-5.4 的发布标志着 AI 从辅助工具到数字员工的转变。

首次在计算机操作任务上超越人类,这个突破的意义不仅仅是数字上的领先,而是 AI 开始具备真正的执行能力。但实际使用中的成本陷阱、性能边界、UI 适配问题,远比官方数据复杂。


如果这篇文章帮到了你,点个在看👀吧,下次再见


AIGC 生活实验室

📮 投稿/合作:egretss.bai.it@gmail.com
💬 交流群:回复加群
✍️ 作者:皮皮鲁呀鲁西西
🚀 关注我,一起探索技术的更多可能