
凌晨两点,微信突然被刷屏了
上周三凌晨,我正准备睡觉,手机突然震个不停。技术群里有人发了一条消息:「OpenAI刚刚悄悄发了 GPT-5.4,原生操控电脑,感觉天要变了。」
我当时以为又是哪个标题党在博眼球,随手划过去准备睡觉。结果第二天早上打开电脑,发现整个 AI 圈子都炸了。
上个月老板让我做竞品分析,我花了整整两天在几十个页面之间来回切换、复制粘贴、整理表格,最后憔悴地交出了一份勉强能看的 PPT。当时我就想,AI 要是能帮我直接「动手」干这个就好了。
没想到,真的来了。
它到底做到了什么
说之前先把话说清楚——GPT-5.4不是那种「智能助手升级了,回答更准了」的普通更新。
它是OpenAI 第一个原生支持「Computer Use」(计算机使用)的通用大模型。啥意思?就是 AI 不只是跟你聊天、给你写文案,它现在可以直接帮你打开浏览器、操作软件、点按钮、填表单。
不骗你,这和之前那种「截图分析」完全不是一个量级。
几个数据可以感受一下:在桌面任务的成功率测试里,GPT-5.4达到了 75%,而人类平均水平是 72.4%。也就是说,在处理日常电脑操作这件事上,这个 AI 已经比普通人更稳了。上下文窗口达到百万 Token 级别,整本书丢进去也不会忘记前面说了什么。
这还不够让你心动?
除了电脑操控,这次还升了啥
说实话,要不是「操控电脑」这个功能太炸,GPT-5.4其他方面的升级可能会被忽视。但那些升级其实也挺猛的。
推理能力这次是真的扎实了。在一堆专业知识测试里,83% 的场景下 GPT-5.4 的表现优于行业专业人士。这个数字我第一眼看到有点不敢信,但不同渠道的评测基本都在印证这个结论。
编程能力同步升级,SWE-Bench的得分达到 57.7%,专门为代码任务优化的 GPT-5.4-Codex 版本也同步发布了。
还有就是工具调用更流畅了。之前用 GPT 接外部API 或者搭 Agent 工作流,总会遇到各种抽风。这次 OpenAI 明显在这块下了功夫,整个工具链路稳定性好很多。
好,终于到手把手教程了
现在教你怎么上手GPT-5.4,特别是那个让人兴奋的电脑操控功能。
第一步:确认你的账号和套餐
GPT-5.4 目前对ChatGPT Plus 用户开放核心功能,Pro用户可以体验完整的 Computer Use 能力。如果你还没有 Plus,可以去 ChatGPT 官网升级,月付 20 美元。
国内用户如果有访问困难,目前主流方式是用聚合镜像平台,但建议选有正规来源的,别随便用来路不明的工具,账号安全比省几块钱重要多了。
第二步:进入ChatGPT,选择 GPT-5.4 模型
登录后,在对话框左上角的模型选择下拉菜单里,找到「GPT-5.4」。如果是 Pro 用户,还会看到「GPT-5.4 Thinking」版本,这个是带深度推理的,遇到复杂任务可以切过去用。
第三步:开启Computer Use功能
这是重头戏。在对话界面里,找到「工具」或者「插件」的设置入口(具体位置OpenAI 还在陆续更新 UI,一般在右下角或者设置面板里),开启「Computer Use」选项。
开启之后,你就可以给 AI 下「操作类指令」了。
第四步:给它布置任务
这里举几个真实可用的场景。
场景一:自动整理竞品信息。你可以告诉它:「帮我在浏览器里搜索 XX 产品的官网介绍,把核心功能提炼出来,整理到一个表格里。」它会自己打开浏览器、逐个页面阅读、然后生成表格。
场景二:批量处理文件。「帮我把桌面上的salesdata.xlsx 里的数据,按月份做成柱状图,保存为 PNG。」
场景三:自动填写重复表单。「帮我把这份名单里 20 个人的信息,逐一填进这个报名系统。」(这种重复劳动真的太累人了)
第五步:看着它干活,必要时接管
重要的事情说一遍:AI 操控电脑不是无缝完美的。75% 的成功率也意味着还有 25% 的时候它会卡壳或者走偏。
所以你不能全撒手,要在旁边观察。如果发现它走偏了,随时可以喊停,或者给它修正指令。把它当一个「速度很快但偶尔需要人盯着」的实习生,就对了。
用了几天之后的真实感受
我拿它做了一个真实工作场景的测试——让它帮我整理一份有 30 条数据的竞品对比表。以前我自己手动做,大概要 40 分钟。GPT-5.4大概用了 12 分钟搞定,中间只卡了一次(一个网页加载太慢,它等了很久才判断超时换了下一个),我进行了一次干预。
效率提升是实打实的。但我觉得更有价值的,是它把那些「不动脑但耗时间」的事干掉了,我可以把注意力放到真正需要判断的地方。
坦白说,这类任务太适合 AI 干了。
聊聊它的不足
说了这么多好的,也得说说让我皱眉头的地方。
Computer Use 功能目前还在公测阶段,并不是所有操作都支持得很丝滑。特别是涉及系统级权限、或者需要 MFA 验证的操作,基本上它到那步就停了,需要你手动接管。
另外,百万Token 的上下文虽然猛,但速度相应会慢一些。如果你只是日常聊天问答,根本用不上那么长的上下文,直接用GPT-4o 反而更快。
国内访问的稳定性也是个现实问题,这个不细说了,懂的都懂。
还有一个隐私问题值得想清楚:Computer Use 功能在运行时会截取屏幕画面发给 OpenAI 的服务器。如果你的屏幕上有敏感信息——比如合同、密码、个人数据——在启用这个功能之前,最好先清理干净,或者用一个专门的操作环境。
值不值得上手
你要问我,2026年AI工具这么多,GPT-5.4 值得花时间学吗?
我的答案是:如果你每周有超过 3 个小时花在「重复、机械、不需要思考」的电脑操作上——整理数据、填表、批量复制粘贴——那 GPT-5.4 的Computer Use 功能就是专门为你准备的。
它不是玩具,是真的在帮你把时间抢回来。
怎么获取
ChatGPT 官网:chat.openai.com,选择Plus(20 美元/月)或Pro 套餐。
GPT-5.4-Codex(代码增强版)同样通过 OpenAI API 可以接入,开发者可以直接在官方文档里找到模型 ID 和调用方法。
如果你试完有什么意外的发现,欢迎留言告诉我——我还在持续测试这玩意儿的边界呢。
夜雨聆风