OpenAI Codex升级能直接操作Mac应用

OpenAI Codex大升级：长出独立鼠标，能直接操作你的Mac应用

你盯着屏幕写代码，Codex 在后台开应用、点按钮、写代码、改 bug。它是员工还是实习生？

4月17日，OpenAI 官宣了 Codex 的大版本升级。

核心能力一句话总结：

Codex 能直接操作你 Mac 电脑上的所有 App 了。

你没看错。

以前的 Codex 是个聊天机器人——你问它问题，它回答你，你复制粘贴。

现在的 Codex 长了眼睛、长了鼠标、长了脑子——它能看屏幕、点按钮、打字、在你的真实电脑环境里执行任务。

多个 Codex 实例可以在后台同时运行，不影响你在前台正常工作。

一句话：AI 打工人，正式上岗。

这次升级到底加了啥

OpenAI 这次一口气加了一堆东西。

第一个：Computer Use 功能（重头戏）

让 Codex 突破传统聊天机器人的限制，在你的设备上全量应用中进行查看、点击和输入操作。

更重要的是——这一切都在后台完成。

意思就是你这边该干啥干啥，Codex 在后台自己干自己的。

第二个：内置浏览器

开发者可以直接在应用内的浏览器页面上添加评论，为智能体提供更精准的指令。

比如你打开一个网页，圈出某个 bug 位置，告诉 Codex："这个按钮的样式要改"，它直接去改代码。

第三个：90+ 款插件

包括 Atlassian Rovo、CircleCI、GitLab 等开发全流程工具链的插件。

意思就是：Jira、GitHub、CI/CD、Notion、Slack……你用到的所有工具，Codex 都能直接对接。

第四个：图生图能力

集成了 gpt-image-1.5 模型。直接在 Codex 里生成 UI mockup、icon、示意图。

第五个：自动排班

Codex 能自动唤醒执行长期任务。跨天、跨周都能继续推进。

第六个：记忆复用

支持复用现有对话线程并保留已构建的上下文信息。你昨天跟它讨论的项目，今天接着聊不用从头解释。

最炸的是 Computer Use：AI 真的在"用电脑"

这个功能值得单独聊。

Computer Use 让 Codex 能像人一样看着屏幕操作软件。

能看懂屏幕内容 → 思考下一步操作 → 执行（点击、输入、拖拽）

场景一：UI 自动化测试

以前测试 UI 要写脚本——用 Selenium 或者类似工具，手工写每一步。

现在你直接跟 Codex 说："测一下这个登录流程，帮我发现所有显示异常"。

Codex 自己打开浏览器、自己点登录按钮、自己输入测试数据、自己截图记录、自己写测试报告。

从指令到交付，全程 AI。

场景二：多应用协调

以前你要从 Google Docs 抓评论、从 Slack 拿上下文、从 Notion 找历史决策，再去 GitHub 创建 issue。手动切五个应用。

现在 Codex 一步到位：

"找出 Google Docs 里需要我处理的评论，从 Slack、Notion 和编码库中提取相关信息，为我生成按优先级排序的待办清单。"

搞定。

场景三：跨天任务

Codex 可以在凌晨审阅代码提交、在周末同步文档、在用餐时间运行测试。

你下班之后，Codex 才刚开始工作。

为啥只有 Mac 能先用

对，现在 Computer Use 这个功能初期仅支持 macOS 系统。

Windows 用户仍可使用并获得官方支持的核心 Codex 桌面应用，可以从 Windows 应用中提取信息并在 Codex 内展示。

但光标级后台交互功能（真正的"操作电脑"）暂时只在 Mac 上。

为啥？

OpenAI 没给官方解释。但业内推测有几个原因：

原因一：macOS 的无障碍 API 更统一、更好集成
原因二：Mac 用户里开发者比例极高，先打开发者市场更划算
原因三：苹果最近和 OpenAI、Anthropic 合作密切，可能有技术加持

OpenAI 也说了：Computer Use 很快会向欧盟与英国用户推出，Windows 版本也在路上。

和 Claude Computer Use 的对比

这里必须提一下——Claude 早就有 Computer Use 了。

Anthropic 在今年 3 月就在 Claude Code 和 Claude Desktop 中推出了对标能力，开箱即用，下载客户端就能体验。

两家的核心能力类似，但各有侧重：

Claude Computer Use：
- 更成熟（上线更早）
- 更稳定
- 集成在 Claude Code 里，开发者向
- 安全性更强（Anthropic 在 AI 安全上一直很重视）

OpenAI Codex Computer Use：
- 新加的 Mac 独立鼠标光标模式更炫酷
- 插件生态更广（90+）
- 跟 GitHub、GitLab、CircleCI 集成深度更高
- 排班/排期功能更完善

谁更好用？

说实话，得看你的工作流。

如果你是重度 GitHub + Slack + Notion 用户，OpenAI 这波可能更贴合你。

如果你主要在 IDE 里写代码，Claude Code 依然是现在最能打的 AI 编程助手。

背后的趋势：AI 从"回答问题"到"完成任务"

这次 Codex 的升级有个更大的意义。

AI 从最初的对话工具（ChatGPT 3.5 时代）→ 辅助工具（Copilot 时代）→ 执行代理（Agent 时代）。

每一步的核心变化是：

第一阶段（对话）：AI 回答你的问题
第二阶段（辅助）：AI 帮你写代码、补全输入
第三阶段（执行）：AI 自己完成任务，你只给目标

Codex Computer Use 就是第三阶段的典型产品。

你不用再一步步指挥它，你只要告诉它"这件事搞定"，剩下的它自己想办法。

这个变化，对开发者的工作方式影响巨大。

用 Codex 的一个典型场景

给你举个实际例子。

假设你是个前端工程师，今天的任务是"修复首页按钮颜色不对的 bug"。

传统流程：

1. 打开 Jira 看任务描述
2. Checkout 对应分支
3. 本地打开 VS Code
4. 找到按钮样式代码
5. 修改 CSS
6. 本地测试
7. 提交 PR
8. 在 Slack 通知评审
9. 等评审
10. 合并

10 个步骤，至少 1 小时。

Codex 流程：

你对 Codex 说："帮我修复 Jira-1234 的按钮颜色问题"

Codex 接下来自己做：

1. ✓ 从 Jira 读取任务描述
2. ✓ 自动 checkout 分支
3. ✓ 定位 bug 代码
4. ✓ 修复
5. ✓ 本地跑测试
6. ✓ 提交 PR
7. ✓ 在 Slack 发消息请你评审
8. 你只需要 review 一下 → 合并

5 分钟解决战斗。

这就是 OpenAI 口中"解放开发者"的意思。

怎么用

更新方式：

如果你是 Codex 桌面应用用户，打开应用，会自动提示更新。

兼容范围：
- macOS：核心功能 + Computer Use
- Windows：核心功能（Computer Use 正在路上）
- iPad：下一阶段

订阅要求：

- ChatGPT Plus（$20/月）：基础 Codex 功能
- ChatGPT Pro（$200/月）：完整 Codex 能力 + 更高频次

有些高级功能可能还在分批开放，不是所有用户一次性解锁。

风险提示：Computer Use 不是没缺点

这种能"自己操作电脑"的 AI 功能，有安全隐患。

隐患一：Prompt Injection 攻击

坏人可以在网页、文档、邮件里埋下恶意指令。AI 读到就会执行。

之前 RSAC 2026 安全大会上，研究员已经演示过：100% 的 AI 编程工具都存在这类漏洞。

隐患二：误操作风险

AI 理解错意图，可能会删错文件、改错代码、发错消息。虽然概率不高，但一旦发生后果严重。

隐患三：权限过度

Computer Use 需要很高的系统权限——文件读写、网络请求、操作其他应用。一旦被劫持，损失难以估量。

建议：

- 重要操作保持人工确认
- 不要让 AI 操作生产环境
- 定期 review AI 的操作日志
- 敏感账户单独开窗口，别让 AI 看见

写在后面

Codex 这次升级，不是小修小补，是质变。

当 AI 能自己操作你的电脑、跨天跑任务、协调多个应用的时候，它已经不再是工具，而是同事。

你雇了一个不要工资、24 小时在线、懂编程的实习生。

这个实习生刚开始还会犯错，但它迭代速度比人类快 100 倍。三个月后，它可能就比你还强。

对开发者来说，这个时代的核心技能不再是"写好代码"，而是：

- 会给 AI 下指令
- 会 review AI 的工作
- 会设计适合 AI 的工作流

编程这个行业，正在经历一次真正意义上的重构。

你准备好了吗？

关注"互联网干货铺"，第一时间获取AI工具实测干货。