AI能操控你的电脑了,但你敢让它动手吗?
2026年3月,OpenAI发布GPT-5.4,最大的卖点不是更聪明,而是更"能干"。它可以直接看你的屏幕、操控你的鼠标键盘,帮你操作电脑上的软件。不是通过插件,不是通过API,而是像一个人坐在你电脑前一样干活。
这听起来像科幻片。但它确实发生了。
AI操作电脑,已经超过人类水平
OpenAI公布了一组测试数据。在OSWorld基准测试中,GPT-5.4通过截图和模拟键鼠操作桌面环境的成功率达到了75%。作为对比,GPT-5.2只有47.3%,人类是72.4%。
是的,AI操作电脑已经超过人类平均水平了。
具体能做什么?比如你让它做一份投资分析报告,它能自动打开Excel、输入数据、创建图表、调整格式。OpenAI同步推出了ChatGPT for Excel插件,接入了FactSet、标普全球等金融数据源。
在模拟投行初级分析师工作的测试中,GPT-5.4得分87.3%,而上一代只有68.4%。
但75%的成功率,够不够?
换个角度看:每4次操作就有1次失败。
如果你让AI完成一个10步的任务,每步成功率75%,整个任务一次成功的概率只有5.6%。
这就是目前Computer Use最大的问题。你操作电脑点错了可以撤销,AI点错了可能删文件、关错程序、填错数据。
知乎上有深度测评,结论是简单任务(打开网页、搜索信息)没问题,但多步推理和精确操作的场景,失败率明显上升。让它从邮件提取信息填入特定表格,可能第3步就选错单元格。
我的判断:可用,但还不可靠。适合信息收集、简单文档处理这类容错率高的场景。不可逆的操作,先别交出去。
中国AI半年前就做了,而且思路不一样
2025年9月,Kimi上线了OK Computer功能,比GPT-5.4早近半年。但走的路完全不同。
GPT-5.4是"操控你的电脑"。它操作你桌面上的真实软件,用截图加模拟键鼠。相当于AI坐在你面前帮你干活。
Kimi是"给AI配一台虚拟电脑"。AI在沙盒环境里操作,调度浏览器、代码编辑器等20多种工具,自主拆解任务、写代码、搭网站、做分析,最后把成品交给你。
哪个更好?看场景。
需要操作现有软件(公司ERP、已有Excel),GPT-5.4更直接。需要从零创建新东西(做网站、生成报告),Kimi的沙盒更干净,也更安全。
有意思的是,在GPT-5.4发布之前,OSWorld排行榜的冠军是Kimi K2.5。中国AI在这个赛道上不是追赶者。
安全:让AI看你的屏幕,你放心吗?
让AI直接操作你的电脑,意味着它能看到屏幕上的一切。邮件、聊天记录、密码、银行账户。
企业场景更敏感。财务数据、客户信息、商业机密,都可能在AI操作过程中被截取。所以OpenAI把Computer Use主要放在API和Codex里,没有直接在ChatGPT免费版开放。
Kimi的沙盒方案天然更安全。AI在虚拟环境里操作,碰不到你的真实系统。但风险类型不同:AI生成的内容如果有错误,你直接采纳了,后果一样严重。
普通人现在能用什么
先说门槛。GPT-5.4的Computer Use在API和Codex中提供,需要开发能力。Pro版API定价输入30美元、输出180美元每百万token,不便宜。
中国用户选项更多。Kimi的OK Computer直接在网页和App里用,描述需求就能交付结果。智谱GLM-5也能直接输出Word、PDF、Excel。
建议从三个低风险场景开始。
信息整合:让AI从多个来源收集信息、整理成报告。容错率高,小错容易改。
数据分析:上传Excel,让AI做清洗、分析和可视化。效果已经比较稳定。
内容生成:描述需求,让AI生成报告或演示文稿的初稿,你做最终调整。
暂时别尝试的:文件删除、系统设置、多步骤跨应用操作。出错成本太高。

AI竞争的新战场
GPT-5.4的Computer Use不只是一个功能,它代表AI竞争的转折点。
过去两年比"谁更聪明"。现在开始比"谁能替你干活"。因为用户的需求已经从"帮我想"变成了"帮我做"。
OpenAI看到了,Anthropic看到了,中国AI公司也看到了。方向一致,路径不同。短期内两条路线并存,长期可能会融合。
AI替你干活的时代确实在到来。只不过,它还需要一点时间从"能干"变成"干得好"。
夜雨聆风