OpenClaw 专属 Computer Use 工具 Peekaboo v3 正式回归,macOS Agent 更接近可用

过去一年,AI Agent 最常被问到的一个问题是:
它到底能不能真的操作电脑?
不是只会生成一段脚本,不是只能调用浏览器 API,也不是在沙盒里模拟点击,而是像一个坐在 Mac 前的人一样:看见屏幕、理解界面、点击按钮、输入内容、切换窗口、处理弹窗。
这个方向,OpenClaw 的答案终于又回来了。
Peter Steinberger 宣布:Peekaboo 3.0 已上线。而在 GitHub 上,截至 2026 年 5 月 13 日,Peekaboo 最新版本已经推进到v3.1.2。这意味着它不是一次“发个版本号”的回归,而是一次连续修复、快速迭代后的正式复活。

Peekaboo 是什么?
Peekaboo 是给 macOS Agent 用的 Computer Use 工具。它负责让 AI 看见屏幕,并真正执行点击、输入、滚动、窗口管理等动作。
官方 README 对 Peekaboo 的定位很直接:它把高保真截图、AI 分析和完整 GUI 自动化带到 macOS。
这类工具的关键:
-
看得准:能捕获窗口、屏幕、菜单栏,并识别 UI 元素。 -
点得稳:能基于元素、标签或坐标执行点击、输入、滚动、热键等动作。 -
接得上 Agent:能通过 CLI 和 MCP 接入 Codex、Claude Code、Cursor 等工具链。
Peekaboo v3 的升级重点,正好都压在这三件事上。
v3 最大变化:从“截图工具”变成“行动优先”的自动化层
这次 v3 最值得关注的关键词,是 action-first automation。
以前 Computer Use 工具的默认思路是先截图,再让模型判断坐标,最后模拟鼠标键盘。这条路能跑,但容易受分辨率、窗口位置、动画、遮挡、Retina 缩放影响。
Peekaboo v3 的方向更进一步:对于支持的 UI 控件,优先走 macOS 原生可访问性动作;不行时再回退到合成输入。
尽量理解“这是一个按钮”“这是一个文本框”“这是一个菜单项”,再对这个 UI 元素执行对应动作。
对 Agent 来说,这个差别非常大。
因为真正的桌面自动化,最怕的不是“不会点”,而是“点错了”。Action-first 的价值就在于,它把很多脆弱的视觉坐标操作,升级成更结构化、更可诊断、更适合重复执行的 UI 行为。

这次更新到底强在哪?
从 v3.0.0 的 Release Note 看,Peekaboo 这次不是小修小补,而是一次架构级重整。几个重点尤其值得看:
截图和 UI 检测统一
CLI 和 MCP 现在共享同一套桌面观察管线,包括结构化诊断、耗时统计、目标元数据、OCR、标注输出和快照注册。对开发者来说,一次 see的结果将是一份可以继续被后续动作复用的结构化现场记录。
JSON 输出更适合脚本和调试。
窗口、应用、菜单栏、Dock、弹窗、Space、剪贴板、run、capture 等命令都走更统一的 JSON envelope。对于要把 Peekaboo 接进 Agent 工作流的人来说,稳定的结构化输出,比一段漂亮的自然语言描述更有用。
第三,快照上下文更可靠。
v3 提到,针对元素的交互会保留快照窗口上下文,并在快照过期时尝试刷新。前一步看到的按钮,后一步点击时不会轻易因为窗口移动、刷新或焦点变化而失效。
第四,性能提升明显。
Release Note 中提到,本地只读命令会避免不必要的 bridge probes,app/window 选择路径更快,ScreenCaptureKit 工作也做了并发控制。Computer Use 的体验很吃延迟:如果每一步都慢半拍,Agent 就会像在水里走路;v3 这类底层优化,直接影响实际可用性。
第五,CLI 体验更完整。
v3 增加 shell completions,强化参数校验,支持更清晰的路径处理和错误提示。看起来像“开发者体验”的细节,但它会决定一个工具能不能被稳定接入自动化链路。
为什么它对 OpenClaw 很重要?
个人 Agent 最大的瓶颈,是能不能进入真实世界的工作流:打开 App、读屏幕、处理消息、填写表单、移动文件、操作本地软件。
而 Peekaboo 刚好补上了 macOS 上最关键的一块能力。
OpenClaw 官方文档里已经有 Peekaboo bridge 页面:OpenClaw.app 可以作为本地、权限感知的 UI 自动化 broker,让 peekabooCLI 复用 macOS App 已经获得的 TCC 权限。它的定位很清楚:
-
OpenClaw.app 可以作为 PeekabooBridge host; -
客户端仍然使用 peekabooCLI; -
可视化覆盖层留在 Peekaboo.app; -
OpenClaw 更像一个轻量的 broker host。
macOS 的屏幕录制、辅助功能权限一直是桌面自动化绕不过去的门槛。如果每个 Agent、每个 CLI、每个插件都各自申请权限,用户体验会非常混乱。Bridge 的意义,就是让权限、宿主和客户端之间的关系更清楚。
对开发者来说,怎么用?
Peekaboo v3 目前提供两条主要路径。
如果你想装本地 App + CLI:
brew install steipete/tap/peekaboo
如果你只想跑 MCP Server:
npx -y @steipete/peekaboo
官方 README 里也给了几个典型用法:
# 截取全屏并保存到桌面
peekaboo image --mode screen --retina --path ~/Desktop/screen.png
# 运行一个自然语言自动化任务
peekaboo agent "Open Notes and create a TODO list with three items"
更重要的是,它可以作为 MCP Server 接入 Codex、Claude Code、Cursor 等工具。也就是说,Peekaboo 不是一个孤立的小工具,而是可以变成 Agent 工具箱里的“眼睛和手”。
Computer Use 开始进入“能用”阶段了
过去的 Computer Use 更像 demo:能演示,能录屏,能让人兴奋,但一旦放进真实桌面环境,就会遇到权限、延迟、窗口焦点、控件识别、弹窗处理、状态复用等一堆细碎问题。
Peekaboo v3 这次有意思的地方在于,它在补这些繁杂的工作:
-
统一截图和 UI 检测; -
统一 CLI 与 MCP 的输出; -
加强快照和上下文; -
优先使用原生 UI 动作; -
改善菜单栏、Dock、弹窗、窗口、Space 等 macOS 日常场景; -
给开发者更稳定的 JSON 和诊断信息。
Computer Use 正在从“模型能力展示”走向“工程系统”。这一步恰恰是 Agent 真正落地前必须经历的阶段。
Peekaboo v3 的回归,表面上看是 OpenClaw 生态多了一个更强的 macOS 自动化工具。
AI Agent 正在从会说话,走向会操作;从理解任务,走向完成任务。
以前我们把 AI 当成副驾驶,它告诉你下一步怎么做。
接下来,越来越多工具会让 AI 变成真正能接手局部流程的执行者。
Peekaboo 这次回归,可能就是 macOS Agent 工具链里一个很重要的信号:Computer Use 不再只是实验室里的概念,而是开始变成开发者每天可以调用的基础设施。
夜雨聆风