AI接管电脑,这次真的不是狼来了
上周五深夜,OpenAI扔出一颗深水炸弹。
不是GPT-5,不是新模型,而是一次让所有开发者脊背发凉的升级——Codex不再只是帮你写代码的助手,它现在能直接操控你的电脑了。
键盘、鼠标、浏览器、文档、表格、IDE……你能用电脑做的事,它都能做。而且不需要任何API,不需要任何插件,就像一个真实的人坐在屏幕前。
说实话,这个消息出来的时候,我愣了足足五分钟。不是因为震惊,而是因为这个"未来",来得比想象中快太多。
01
先说这次升级的核心变化。
之前的 Codex,本质上还是个"高级打字机"——你输入指令,它输出代码。哪怕再智能,也只是单向交互。
但现在不一样了。
OpenAI 给 Codex 装上了"手"和"眼"。它能像人一样操作电脑:打开浏览器、点击按钮、输入文字、控制任何软件。JIRA、GitLab、Slack、Notion、微软全家桶……这些工具在它面前,就像没有锁的抽屉。
官方数据显示,这次一口气接入了90多个新插件。更值得关注的细节是——它还接入了Anthropic提出的MCP协议。
还记得MCP是什么吗?简单说,它是让AI在不同工具之间"无缝切换"的通用标准。OpenAI和Anthropic这两家死对头,在协议层面居然握手言和了。这背后的含义,懂的人自然懂。
02
具体来看,这次 Codex 带来了五大功能更新:
第一,内置浏览器。 以前要让AI操作网页,得搭一堆环境、配一堆接口。现在它直接内置浏览器内核,能准确点击任意位置、完成任意表单操作。说人话就是——它可以替你"用"浏览器了。
第二,内置画图。 集成了GPT-Image-1.5模型。这意味着你跟它说"帮我画一个科技感的封面",它不只会输出一段描述,而是直接生成图片。一句话,AI绘图和AI操作,第一次无缝衔接。
第三,插件生态爆发。 90+新插件一次性上线,覆盖了主流的工作场景。JIRA管项目、GitLab管代码、Slack管沟通、Notion管知识库……一个入口,全部搞定。
第四,长期记忆。 这是我看来最恐怖的功能。它不只是"记住当前对话",而是能记住你的使用习惯、历史偏好、常用工作流。下次再打开,它比你的同事还了解你。
第五,桌面应用。 不再是网页版,而是原生桌面客户端。意味着更深层的系统权限、更稳定的运行环境、更接近"操作系统级"的能力。
03
聊到这,你可能想问:这跟我有什么关系?
关系大了。
举几个真实的场景。
场景一:自动化办公。以后整理周报,不用再手动复制粘贴。告诉Codex"帮我把本周飞书消息汇总成周报",它会自己打开飞书、筛选信息、整理格式、写入文档。你只需要点一下发送。
场景二:代码审查。以前review PR得一个个文件打开看,现在告诉它"帮我检查这个PR有没有安全风险",它会自己打开GitLab、定位代码、分析逻辑、标注问题。
场景三:数据处理。想把Excel里的数据可视化?告诉它"帮我把这些数据画成折线图并导出",它会自己打开表格、处理数据、生成图表、保存在桌面。
这些事情,以前要么得写脚本,要么得一个个手动操作。现在,说句话就行。
04
当然,争议也随之而来。
最大的担忧是:安全怎么办?
AI能操作电脑,意味着它也能读取你的文件、访问你的账户、控制你的设备。如果被恶意利用,后果不堪设想。
OpenAI 的回应是"沙盒隔离+权限分级"。但坦率讲,这个回答并不能完全打消疑虑。任何足够强大的自动化系统,都是一把双刃剑。用得好是效率神器,用不好是灾难入口。
另一个争议是:这会不会取代人类工作?
我的判断是——会取代部分,但不会取代全部。
简单重复的电脑操作,比如填表、整理文件、批量处理,确实会被替代。但需要判断力、创造力、人际沟通的工作,AI还差得远。
就像汽车取代了马车,但司机这个职业没有消失,只是换了工具。
05
回到标题说的问题:AI Agent时代,真的加速到来了。
什么是AI Agent?简单说就是能自主规划、自主执行、自主修正的AI系统。之前的AI是"你说什么它做什么",Agent是"你定目标它自己想办法"。
Codex这次升级,就是最直观的例证。
它不再被动等待指令,而是能主动操作环境、调用工具、完成任务。你只需要说"我要什么",不用管"怎么做"。
这条路的终点是什么?
也许有一天,我们跟电脑的关系会彻底逆转——不是我们操作电脑,而是电脑操作电脑,我们只需要操作AI。
那一天可能比大多数人想象的更近。
夜雨聆风