乐于分享
好东西不私藏

GPT-5.4来了:AI操控电脑首次超越人类,Agent时代不是在路上,它已经到了

GPT-5.4来了:AI操控电脑首次超越人类,Agent时代不是在路上,它已经到了

2026年3月5日,一个数字悄悄越过了人类。

在 OSWorld 桌面控制基准测试上,GPT-5.4 的成功率是 75%

人类基线:72.4%

这不是"差不多"。这是第一次,AI 在操控真实电脑这件事上,正式跑赢了普通人。

▲ GPT-5.4 Thinking — OpenAI 官方发布图(图源:TechCrunch)


它能做什么,说人话版

GPT-5.4 是 OpenAI 首个把 Computer Use(电脑操控) 原生内置进通用模型的产品。不是插件,不是外挂,是模型本身会操控电脑。

什么意思?就是你跟它说"帮我把这份 Excel 数据整理好发给张总",它会:

• 打开你的文件夹

• 找到那个 Excel

• 读懂里面的内容,整理好

• 打开邮件客户端,找到张总

• 写邮件,发送

全程你不需要动手。不是伪代码演示,是真的在屏幕上点击、输入、滚动、拖拽。

这种能力之前 Anthropic 的 Claude Computer Use 能做到一部分,但 GPT-5.4 是把它直接炼进了基础模型——无需单独调用工具接口,模型理解任务的同时就知道怎么执行。

另外两个关键数字:

GDPval 基准覆盖44个职业场景,GPT-5.4 在 83% 的任务里达到了行业专业水准。这不是"能用",这是"能顶一个初级员工"。

100万 token 上下文。 Agent 可以在一个对话里处理整个项目、读完整本代码库,然后帮你执行,不断线。


三个版本,你用哪个

版本 特点 适合谁
GPT-5.4 标准版 均衡性能,速度快 日常任务、API开发者
GPT-5.4 Thinking 强化推理,执行前"想一想" 复杂任务、需要规划的长流程
GPT-5.4 Pro 最强性能,延迟最高 企业级、高要求场景

还有一个低调但实用的改进:tool search

以前模型要先把所有工具定义全读一遍,现在它先看轻量目录,用到哪个才加载哪个。结果:部分任务 token 消耗直接减少 47%。对调用复杂工具链的 Agent 来说,这是实实在在的降本。


三家同台 PK:谁在领先?

这个节点很有意思。OpenAI、Anthropic、Google 同时在打 Agent 牌,但思路不同:

OpenAI GPT-5.4:行动力优先。它更愿意直接出手,不问你"确定要做吗"。测试中对比 Claude,GPT-5.4 被描述为"更强势地接管屏幕"。

Anthropic Claude(Computer Use):执行前确认。Claude 倾向于在关键步骤暂停询问,设计更保守。这代表了对 Agent 自主度的不同判断——两种都有道理,取决于你的容错预期。

Google Gemini Agent:原生多模态。这是 Claude 和 GPT 目前 API 层面都不具备的——Gemini 3.1 Pro 能在单个请求里同时处理文字、图片、音频、视频。在需要理解复杂媒体的 Agent 任务上,它有差异化优势。

没有哪家全赢。但 GPT-5.4 发布之后,"AI 能帮你做电脑上的事"这件事,变得更难被质疑了。

▲ ChatGPT 已突破9亿周活用户(图源:MacObserver)


被指出的三大问题

这次有媒体和社区明确点出了 GPT-5.4 的局限,值得正视:

① 可靠性还不够稳。 短任务表现不错,但长流程任务(超过 20 步)出错概率明显上升。一个环节失误,后面全错。这是当前所有 Agent 系统的共同痛点,不只 GPT-5.4。

② 安全和隐私风险被低估了。 给 AI 操控电脑的权限,意味着它可以读到你所有打开的文件、邮件、甚至密码管理器。OpenAI 有沙箱隔离,但"沙箱够不够严"这个问题目前没有完整的公开审计结论。

③ 企业级成本和延迟偏高。 Pro 版的推理成本目前不适合高频调用场景。如果你想用它自动化一个每天跑几千次的业务流程,账单会很难看。

这三个问题不是致命伤,但它们划定了 GPT-5.4 现在能用在哪、不适合用在哪

▲ ChatGPT(图源:9to5Mac)


3D的思考

我每天用 Claude Code 和各种 Agent 工具运营这个自媒体。我不是旁观者,我是实际在被 Agent 替代那一半工作量的人。

所以我想说一个可能让部分人不舒服的判断:

Agent 时代不是在路上,它已经到了。只是门票还很贵,暂时只开给愿意折腾的人。

GPT-5.4 超越人类桌面操控基线这件事,我认为被低估了。大家的注意力放在了"还有三大问题"上,但真正重要的信息是——基线已经被越过。之后的问题只是:什么时候稳定?成本什么时候降?门槛什么时候低到普通用户能用?

这三个问题都是工程问题,不是能力上限问题。

真正的担忧不是 AI 还做不好——而是它从"做不好"变成"做得不错"的速度,快得让大多数人没时间准备。

你桌面上那些重复性的操作,打开文件、填表格、发邮件、整理数据——不是说"以后可能会被替代"。是 2026年3月,这件事已经在发生了。

那支鼠标,你还打算自己拿多久?


🎙️ 播客|遇见大王2025(小宇宙)
📝 公众号|遇见大王2025
🌐 博客|aidawang.de5.net
📮 邮箱|yaron999999@gmail.com
🐙 GitHub|github.com/Yaron9
⭐ 推荐项目|MetaMe — github.com/Yaron9/MetaMe
💻 MetaMe Desktop|https://metame.cc.cd/
全球AI咨询早知道 · 用 AI 过好每一天.