GPT-5.4来了:AI操控电脑首次超越人类,Agent时代不是在路上,它已经到了

2026年3月5日，一个数字悄悄越过了人类。

在 OSWorld 桌面控制基准测试上，GPT-5.4 的成功率是 75%。

人类基线：72.4%。

这不是"差不多"。这是第一次，AI 在操控真实电脑这件事上，正式跑赢了普通人。

▲ GPT-5.4 Thinking — OpenAI 官方发布图（图源：TechCrunch）

它能做什么，说人话版

GPT-5.4 是 OpenAI 首个把 Computer Use（电脑操控） 原生内置进通用模型的产品。不是插件，不是外挂，是模型本身会操控电脑。

什么意思？就是你跟它说"帮我把这份 Excel 数据整理好发给张总"，它会：

• 打开你的文件夹

• 找到那个 Excel

• 读懂里面的内容，整理好

• 打开邮件客户端，找到张总

• 写邮件，发送

全程你不需要动手。不是伪代码演示，是真的在屏幕上点击、输入、滚动、拖拽。

这种能力之前 Anthropic 的 Claude Computer Use 能做到一部分，但 GPT-5.4 是把它直接炼进了基础模型——无需单独调用工具接口，模型理解任务的同时就知道怎么执行。

另外两个关键数字：

GDPval 基准覆盖44个职业场景，GPT-5.4 在 83% 的任务里达到了行业专业水准。这不是"能用"，这是"能顶一个初级员工"。

100万 token 上下文。 Agent 可以在一个对话里处理整个项目、读完整本代码库，然后帮你执行，不断线。

三个版本，你用哪个

版本	特点	适合谁
GPT-5.4 标准版	均衡性能，速度快	日常任务、API开发者
GPT-5.4 Thinking	强化推理，执行前"想一想"	复杂任务、需要规划的长流程
GPT-5.4 Pro	最强性能，延迟最高	企业级、高要求场景

还有一个低调但实用的改进：tool search。

以前模型要先把所有工具定义全读一遍，现在它先看轻量目录，用到哪个才加载哪个。结果：部分任务 token 消耗直接减少 47%。对调用复杂工具链的 Agent 来说，这是实实在在的降本。

三家同台 PK：谁在领先？

这个节点很有意思。OpenAI、Anthropic、Google 同时在打 Agent 牌，但思路不同：

OpenAI GPT-5.4：行动力优先。它更愿意直接出手，不问你"确定要做吗"。测试中对比 Claude，GPT-5.4 被描述为"更强势地接管屏幕"。

Anthropic Claude（Computer Use）：执行前确认。Claude 倾向于在关键步骤暂停询问，设计更保守。这代表了对 Agent 自主度的不同判断——两种都有道理，取决于你的容错预期。

Google Gemini Agent：原生多模态。这是 Claude 和 GPT 目前 API 层面都不具备的——Gemini 3.1 Pro 能在单个请求里同时处理文字、图片、音频、视频。在需要理解复杂媒体的 Agent 任务上，它有差异化优势。

没有哪家全赢。但 GPT-5.4 发布之后，"AI 能帮你做电脑上的事"这件事，变得更难被质疑了。

▲ ChatGPT 已突破9亿周活用户（图源：MacObserver）

被指出的三大问题

这次有媒体和社区明确点出了 GPT-5.4 的局限，值得正视：

① 可靠性还不够稳。 短任务表现不错，但长流程任务（超过 20 步）出错概率明显上升。一个环节失误，后面全错。这是当前所有 Agent 系统的共同痛点，不只 GPT-5.4。

② 安全和隐私风险被低估了。 给 AI 操控电脑的权限，意味着它可以读到你所有打开的文件、邮件、甚至密码管理器。OpenAI 有沙箱隔离，但"沙箱够不够严"这个问题目前没有完整的公开审计结论。

③ 企业级成本和延迟偏高。 Pro 版的推理成本目前不适合高频调用场景。如果你想用它自动化一个每天跑几千次的业务流程，账单会很难看。

这三个问题不是致命伤，但它们划定了 GPT-5.4 现在能用在哪、不适合用在哪。

▲ ChatGPT（图源：9to5Mac）

3D的思考

我每天用 Claude Code 和各种 Agent 工具运营这个自媒体。我不是旁观者，我是实际在被 Agent 替代那一半工作量的人。

所以我想说一个可能让部分人不舒服的判断：

Agent 时代不是在路上，它已经到了。只是门票还很贵，暂时只开给愿意折腾的人。

GPT-5.4 超越人类桌面操控基线这件事，我认为被低估了。大家的注意力放在了"还有三大问题"上，但真正重要的信息是——基线已经被越过。之后的问题只是：什么时候稳定？成本什么时候降？门槛什么时候低到普通用户能用？

这三个问题都是工程问题，不是能力上限问题。

真正的担忧不是 AI 还做不好——而是它从"做不好"变成"做得不错"的速度，快得让大多数人没时间准备。

你桌面上那些重复性的操作，打开文件、填表格、发邮件、整理数据——不是说"以后可能会被替代"。是 2026年3月，这件事已经在发生了。

那支鼠标，你还打算自己拿多久？

🎙️ 播客｜遇见大王2025（小宇宙）
📝 公众号｜遇见大王2025
🌐 博客｜aidawang.de5.net
📮 邮箱｜yaron999999@gmail.com
🐙 GitHub｜github.com/Yaron9
⭐ 推荐项目｜MetaMe — github.com/Yaron9/MetaMe
💻 MetaMe Desktop｜https://metame.cc.cd/
全球AI咨询早知道 · 用 AI 过好每一天.