乐于分享
好东西不私藏

OpenAI把Codex推到Mac原生应用层:不用API也能操控Slack/iMessage?后台「Computer Use」第二光标炸了!

OpenAI把Codex推到Mac原生应用层:不用API也能操控Slack/iMessage?后台「Computer Use」第二光标炸了!

导读
OpenAI在 4 月 16 日更新 Codex,把「Computer Use」从“网页里跑跑脚本”直接推进到 macOS:模型拿到 Screen Recording + Accessibility 权限后,能看见并操作原生应用,还能用自己的光标在后台并行工作。Hamel Husain 一条线程近12 万围观,直说“Slack、Google Sheets、Notes、iMessage 没有好 API 也照样能被操作”;Sam Altman 也表示这功能“比预期还更有用”。桌面软件那道“最后一公里接口墙”,正在被硬生生推倒。

这次最狠的点:GUI本身,变成了接口

过去做 agent,真正卡人的一直是工具链断在最后一步。

API 有的地方当然好办,MCP、插件、Webhook、脚本都能接。但现实世界里,大量高频软件就是没有干净的 API,或者 API 覆盖很窄,最关键的动作还得人自己点。

现在 Codex 走了另一条路:只要一个应用在 macOS 上能被“看见、点按、输入”,它就进入了可调用范围。对工作流的意义很简单粗暴:

  • 不用等厂商开放接口
  • 不用为每个应用单独写集成
  • 许多跨 app 的杂活,第一次出现“统一入口”

官方定调:自己的光标,后台并行,不抢你电脑

OpenAI 在产品更新里写得很直白:

“With background computer use, Codex can now use all of the apps on your computer by seeing, clicking, and typing with its own cursor. Multiple agents can work on your Mac in parallel, without interfering with your own work in other apps.”

「中文翻译」在后台 computer use 下,Codex 现在能通过“看见、点击、输入”,用自己的光标使用你电脑上的所有应用;多个 agent 还能在 Mac 上并行工作,不会干扰你正在操作的 app。

这句“its own cursor”非常关键。

桌面自动化最让人崩溃的体验,就是 AI 一跑就像远程接管,屏幕被它占住,你只能等它忙完。现在的交互模型更像:旁边多了一个“看得见 UI 的后台同事”,你照常干活,它在另一条轨道上推进任务。

爆款体验贴:Slack、Sheets、Notes、iMessage 直接变工具

把这波传播推上热搜的,是 Hamel Husain 的总结线程。

他列了 5 个点,第一条就把核心炸点掐得很准:

“operate Mac Apps without a great API… It instantly transforms all your apps into tools”

「中文翻译」就算没有很好的 API,也能直接操作 Mac 应用,这会让你的所有 app瞬间变成工具

▲ Hamel:不用独立插件,Slack/Sheets/Notes/iMessage 也能被直接操作

这句话背后其实是一个产品拐点。

当 GUI 变成接口,“工具接入”的成本会从“每个应用做一次工程化集成”,变成“让 agent 学会看懂并驱动 UI”。对个人用户来说是爽,对企业和开发者来说更致命:内部系统、老旧工具、临时流程,一夜之间都可能被纳入自动化半径。

真正的技术底牌:Accessibility Tree,让它别只靠“截图瞎猜”

如果只是截图 OCR + 坐标点击,桌面 agent 很快就会变脆:窗口一挪、分辨率一换、按钮样式一变,脚本全崩。

Michael Tsai 汇总的观察里引用了 Federico Viticci 的判断:Codex 可能深度利用了 macOS 的Accessibility hierarchy(AX Tree)。如果它真在读 AX Tree,说明它拿到的是更深一层的界面结构。这也意味着:

  • UI 元素是结构化的(按钮、输入框、菜单都有语义)
  • 点击更稳,定位更准
  • 更接近真正理解界面,也不用继续对着像素点赌一把

Matt 的回复把这种“解锁”说得更狠:针对每个 app 单独做集成的时代,可能要寿终正寝。

▲ Matt:不用为每个应用做定制集成,成本结构可能被改写

边界外延开始冒出来:CLI也在变,手机也能被“间接接管”

最容易被忽略的一条信号,是 Austin Welch 的观察:Codex CLI 最近似乎也切到了 `computer-use` 工具,playwright 已经退到配角位置。

▲ Austin:熟悉的 Codex 光标出现在自动化浏览器里,能力可能外溢到更多 surface

另一条更适合传播的玩法来自 Nick Dobos:把 computer use 和 Mac 的 iPhone Mirroring 拼在一起,让 GPT 间接操作手机 app。

▲ Nick:点击精度还没那么完美,但“能跑通”已经足够让人背脊发凉

当桌面 GUI 被统一成可操作层,跨端这件事就主要是工程活了,概念层面的争论已经没那么重要。

OpenAI 自己也在暗示:Codex 目标是“整天的工作流”

这次更新里,OpenAI 给了一个很有指向性的数据:Codex 每周已有300 万+开发者使用,且接近一半的使用场景已经超出写代码本身。

Thurrott 的概览把它概括得更直白:

“makes it useful throughout the workday and not just in a code editor”

「中文翻译」它开始覆盖一整天的工作流,而不只是待在代码编辑器里。

再看社区反馈,就更像同一个结论的不同说法:

▲ Sam Altman:computer use 对他来说是真正的更新,“比预期更有用”

▲ Tibo:现在已经够快,接下来还有“数量级”提升的预期

▲ Greg Brockman:把 Codex 描述成围绕“创作与迭代”展开的工作台,单点工具的味道已经淡了很多

这些碎片拼起来,像一个越来越清晰的方向:Codex 不想只当 IDE 的外挂,它想当“工作台”,甚至是一个超级入口。

最敏感的代价:Screen Recording + Accessibility,权限就是边界

官方开发者文档明确写了,Computer Use 在 macOS 上需要安装插件,并授予Screen RecordingAccessibility权限。

这组权限的含义非常直接:

  • 它可能看见比项目目录更广的上下文
  • 它可以在多个 app 间执行动作,影响系统状态

因此,真实可用的姿势更像“把任务切小、把范围圈住、关键步骤由人确认”。尤其涉及支付、账号、隐私、系统设置时,放手全自动很容易把风险放大。

结尾:一条新赛道正在成型,叫“没有API的世界”

Hamel 那句“瞬间把所有 app 变成工具”,更像一个新范式的开场白。

当 computer use 真正做到后台并行、稳定驱动原生应用时,AI agent 的竞争焦点会从“谁更会写代码”,转向“谁更能吞下整天的工作流”。

到那一步,更让人发毛的是:软件的边界开始松动,接口的定义权也会慢慢从厂商手里滑向 UI 本身的重新解释。


— END —

— END —