OpenAI Codex大升级:长出独立鼠标,能直接操作你的Mac应用

你盯着屏幕写代码,Codex 在后台开应用、点按钮、写代码、改 bug。它是员工还是实习生?
4月17日,OpenAI 官宣了 Codex 的大版本升级。
核心能力一句话总结:
Codex 能直接操作你 Mac 电脑上的所有 App 了。
你没看错。
以前的 Codex 是个聊天机器人——你问它问题,它回答你,你复制粘贴。
现在的 Codex 长了眼睛、长了鼠标、长了脑子——它能看屏幕、点按钮、打字、在你的真实电脑环境里执行任务。
多个 Codex 实例可以在后台同时运行,不影响你在前台正常工作。
一句话:AI 打工人,正式上岗。
这次升级到底加了啥
OpenAI 这次一口气加了一堆东西。
第一个:Computer Use 功能(重头戏)
让 Codex 突破传统聊天机器人的限制,在你的设备上全量应用中进行查看、点击和输入操作。
更重要的是——这一切都在后台完成。
意思就是你这边该干啥干啥,Codex 在后台自己干自己的。
第二个:内置浏览器
开发者可以直接在应用内的浏览器页面上添加评论,为智能体提供更精准的指令。
比如你打开一个网页,圈出某个 bug 位置,告诉 Codex:"这个按钮的样式要改",它直接去改代码。
第三个:90+ 款插件
包括 Atlassian Rovo、CircleCI、GitLab 等开发全流程工具链的插件。
意思就是:Jira、GitHub、CI/CD、Notion、Slack……你用到的所有工具,Codex 都能直接对接。
第四个:图生图能力
集成了 gpt-image-1.5 模型。直接在 Codex 里生成 UI mockup、icon、示意图。
第五个:自动排班
Codex 能自动唤醒执行长期任务。跨天、跨周都能继续推进。
第六个:记忆复用
支持复用现有对话线程并保留已构建的上下文信息。你昨天跟它讨论的项目,今天接着聊不用从头解释。
最炸的是 Computer Use:AI 真的在"用电脑"
这个功能值得单独聊。
Computer Use 让 Codex 能像人一样看着屏幕操作软件。
能看懂屏幕内容 → 思考下一步操作 → 执行(点击、输入、拖拽)
场景一:UI 自动化测试
以前测试 UI 要写脚本——用 Selenium 或者类似工具,手工写每一步。
现在你直接跟 Codex 说:"测一下这个登录流程,帮我发现所有显示异常"。
Codex 自己打开浏览器、自己点登录按钮、自己输入测试数据、自己截图记录、自己写测试报告。
从指令到交付,全程 AI。
场景二:多应用协调
以前你要从 Google Docs 抓评论、从 Slack 拿上下文、从 Notion 找历史决策,再去 GitHub 创建 issue。手动切五个应用。
现在 Codex 一步到位:
"找出 Google Docs 里需要我处理的评论,从 Slack、Notion 和编码库中提取相关信息,为我生成按优先级排序的待办清单。"
搞定。
场景三:跨天任务
Codex 可以在凌晨审阅代码提交、在周末同步文档、在用餐时间运行测试。
你下班之后,Codex 才刚开始工作。
为啥只有 Mac 能先用
对,现在 Computer Use 这个功能初期仅支持 macOS 系统。
Windows 用户仍可使用并获得官方支持的核心 Codex 桌面应用,可以从 Windows 应用中提取信息并在 Codex 内展示。
但光标级后台交互功能(真正的"操作电脑")暂时只在 Mac 上。
为啥?
OpenAI 没给官方解释。但业内推测有几个原因:
原因一:macOS 的无障碍 API 更统一、更好集成
原因二:Mac 用户里开发者比例极高,先打开发者市场更划算
原因三:苹果最近和 OpenAI、Anthropic 合作密切,可能有技术加持
OpenAI 也说了:Computer Use 很快会向欧盟与英国用户推出,Windows 版本也在路上。
和 Claude Computer Use 的对比
这里必须提一下——Claude 早就有 Computer Use 了。
Anthropic 在今年 3 月就在 Claude Code 和 Claude Desktop 中推出了对标能力,开箱即用,下载客户端就能体验。
两家的核心能力类似,但各有侧重:
Claude Computer Use:
- 更成熟(上线更早)
- 更稳定
- 集成在 Claude Code 里,开发者向
- 安全性更强(Anthropic 在 AI 安全上一直很重视)
OpenAI Codex Computer Use:
- 新加的 Mac 独立鼠标光标模式更炫酷
- 插件生态更广(90+)
- 跟 GitHub、GitLab、CircleCI 集成深度更高
- 排班/排期功能更完善
谁更好用?
说实话,得看你的工作流。
如果你是重度 GitHub + Slack + Notion 用户,OpenAI 这波可能更贴合你。
如果你主要在 IDE 里写代码,Claude Code 依然是现在最能打的 AI 编程助手。
背后的趋势:AI 从"回答问题"到"完成任务"
这次 Codex 的升级有个更大的意义。
AI 从最初的对话工具(ChatGPT 3.5 时代)→ 辅助工具(Copilot 时代)→ 执行代理(Agent 时代)。
每一步的核心变化是:
第一阶段(对话):AI 回答你的问题
第二阶段(辅助):AI 帮你写代码、补全输入
第三阶段(执行):AI 自己完成任务,你只给目标
Codex Computer Use 就是第三阶段的典型产品。
你不用再一步步指挥它,你只要告诉它"这件事搞定",剩下的它自己想办法。
这个变化,对开发者的工作方式影响巨大。
用 Codex 的一个典型场景
给你举个实际例子。
假设你是个前端工程师,今天的任务是"修复首页按钮颜色不对的 bug"。
传统流程:
1. 打开 Jira 看任务描述
2. Checkout 对应分支
3. 本地打开 VS Code
4. 找到按钮样式代码
5. 修改 CSS
6. 本地测试
7. 提交 PR
8. 在 Slack 通知评审
9. 等评审
10. 合并
10 个步骤,至少 1 小时。
Codex 流程:
你对 Codex 说:"帮我修复 Jira-1234 的按钮颜色问题"
Codex 接下来自己做:
1. ✓ 从 Jira 读取任务描述
2. ✓ 自动 checkout 分支
3. ✓ 定位 bug 代码
4. ✓ 修复
5. ✓ 本地跑测试
6. ✓ 提交 PR
7. ✓ 在 Slack 发消息请你评审
8. 你只需要 review 一下 → 合并
5 分钟解决战斗。
这就是 OpenAI 口中"解放开发者"的意思。
怎么用
更新方式:
如果你是 Codex 桌面应用用户,打开应用,会自动提示更新。
兼容范围:
- macOS:核心功能 + Computer Use
- Windows:核心功能(Computer Use 正在路上)
- iPad:下一阶段
订阅要求:
- ChatGPT Plus($20/月):基础 Codex 功能
- ChatGPT Pro($200/月):完整 Codex 能力 + 更高频次
有些高级功能可能还在分批开放,不是所有用户一次性解锁。
风险提示:Computer Use 不是没缺点
这种能"自己操作电脑"的 AI 功能,有安全隐患。
隐患一:Prompt Injection 攻击
坏人可以在网页、文档、邮件里埋下恶意指令。AI 读到就会执行。
之前 RSAC 2026 安全大会上,研究员已经演示过:100% 的 AI 编程工具都存在这类漏洞。
隐患二:误操作风险
AI 理解错意图,可能会删错文件、改错代码、发错消息。虽然概率不高,但一旦发生后果严重。
隐患三:权限过度
Computer Use 需要很高的系统权限——文件读写、网络请求、操作其他应用。一旦被劫持,损失难以估量。
建议:
- 重要操作保持人工确认
- 不要让 AI 操作生产环境
- 定期 review AI 的操作日志
- 敏感账户单独开窗口,别让 AI 看见
写在后面
Codex 这次升级,不是小修小补,是质变。
当 AI 能自己操作你的电脑、跨天跑任务、协调多个应用的时候,它已经不再是工具,而是同事。
你雇了一个不要工资、24 小时在线、懂编程的实习生。
这个实习生刚开始还会犯错,但它迭代速度比人类快 100 倍。三个月后,它可能就比你还强。
对开发者来说,这个时代的核心技能不再是"写好代码",而是:
- 会给 AI 下指令
- 会 review AI 的工作
- 会设计适合 AI 的工作流
编程这个行业,正在经历一次真正意义上的重构。
你准备好了吗?
关注"互联网干货铺",第一时间获取AI工具实测干货。
夜雨聆风