OpenClaw 专属 Computer Use 工具 Peekaboo v3 正式回归,macOS Agent 更接近可用-夜雨聆风

OpenClaw 专属 Computer Use 工具 Peekaboo v3 正式回归,macOS Agent 更接近可用

过去一年，AI Agent 最常被问到的一个问题是：

它到底能不能真的操作电脑？

不是只会生成一段脚本，不是只能调用浏览器 API，也不是在沙盒里模拟点击，而是像一个坐在 Mac 前的人一样：看见屏幕、理解界面、点击按钮、输入内容、切换窗口、处理弹窗。

这个方向，OpenClaw 的答案终于又回来了。

Peter Steinberger 宣布：Peekaboo 3.0 已上线。而在 GitHub 上，截至 2026 年 5 月 13 日，Peekaboo 最新版本已经推进到v3.1.2。这意味着它不是一次“发个版本号”的回归，而是一次连续修复、快速迭代后的正式复活。

Peekaboo 是什么？

Peekaboo 是给 macOS Agent 用的 Computer Use 工具。它负责让 AI 看见屏幕，并真正执行点击、输入、滚动、窗口管理等动作。

官方 README 对 Peekaboo 的定位很直接：它把高保真截图、AI 分析和完整 GUI 自动化带到 macOS。

这类工具的关键：

看得准：能捕获窗口、屏幕、菜单栏，并识别 UI 元素。
点得稳：能基于元素、标签或坐标执行点击、输入、滚动、热键等动作。
接得上 Agent：能通过 CLI 和 MCP 接入 Codex、Claude Code、Cursor 等工具链。

Peekaboo v3 的升级重点，正好都压在这三件事上。

v3 最大变化：从“截图工具”变成“行动优先”的自动化层

这次 v3 最值得关注的关键词，是 action-first automation。

以前 Computer Use 工具的默认思路是先截图，再让模型判断坐标，最后模拟鼠标键盘。这条路能跑，但容易受分辨率、窗口位置、动画、遮挡、Retina 缩放影响。

Peekaboo v3 的方向更进一步：对于支持的 UI 控件，优先走 macOS 原生可访问性动作；不行时再回退到合成输入。

尽量理解“这是一个按钮”“这是一个文本框”“这是一个菜单项”，再对这个 UI 元素执行对应动作。

对 Agent 来说，这个差别非常大。

因为真正的桌面自动化，最怕的不是“不会点”，而是“点错了”。Action-first 的价值就在于，它把很多脆弱的视觉坐标操作，升级成更结构化、更可诊断、更适合重复执行的 UI 行为。

这次更新到底强在哪？

从 v3.0.0 的 Release Note 看，Peekaboo 这次不是小修小补，而是一次架构级重整。几个重点尤其值得看：

截图和 UI 检测统一

CLI 和 MCP 现在共享同一套桌面观察管线，包括结构化诊断、耗时统计、目标元数据、OCR、标注输出和快照注册。对开发者来说，一次 see的结果将是一份可以继续被后续动作复用的结构化现场记录。

JSON 输出更适合脚本和调试。

窗口、应用、菜单栏、Dock、弹窗、Space、剪贴板、run、capture 等命令都走更统一的 JSON envelope。对于要把 Peekaboo 接进 Agent 工作流的人来说，稳定的结构化输出，比一段漂亮的自然语言描述更有用。

第三，快照上下文更可靠。

v3 提到，针对元素的交互会保留快照窗口上下文，并在快照过期时尝试刷新。前一步看到的按钮，后一步点击时不会轻易因为窗口移动、刷新或焦点变化而失效。

第四，性能提升明显。

Release Note 中提到，本地只读命令会避免不必要的 bridge probes，app/window 选择路径更快，ScreenCaptureKit 工作也做了并发控制。Computer Use 的体验很吃延迟：如果每一步都慢半拍，Agent 就会像在水里走路；v3 这类底层优化，直接影响实际可用性。

第五，CLI 体验更完整。

v3 增加 shell completions，强化参数校验，支持更清晰的路径处理和错误提示。看起来像“开发者体验”的细节，但它会决定一个工具能不能被稳定接入自动化链路。

为什么它对 OpenClaw 很重要？

个人 Agent 最大的瓶颈，是能不能进入真实世界的工作流：打开 App、读屏幕、处理消息、填写表单、移动文件、操作本地软件。

而 Peekaboo 刚好补上了 macOS 上最关键的一块能力。

OpenClaw 官方文档里已经有 Peekaboo bridge 页面：OpenClaw.app 可以作为本地、权限感知的 UI 自动化 broker，让 peekabooCLI 复用 macOS App 已经获得的 TCC 权限。它的定位很清楚：

OpenClaw.app 可以作为 PeekabooBridge host；
客户端仍然使用 peekabooCLI；
可视化覆盖层留在 Peekaboo.app；
OpenClaw 更像一个轻量的 broker host。

macOS 的屏幕录制、辅助功能权限一直是桌面自动化绕不过去的门槛。如果每个 Agent、每个 CLI、每个插件都各自申请权限，用户体验会非常混乱。Bridge 的意义，就是让权限、宿主和客户端之间的关系更清楚。

对开发者来说，怎么用？

Peekaboo v3 目前提供两条主要路径。

如果你想装本地 App + CLI：

brew install steipete/tap/peekaboo

如果你只想跑 MCP Server：

npx -y @steipete/peekaboo

官方 README 里也给了几个典型用法：

# 截取全屏并保存到桌面
peekaboo image --mode screen --retina --path ~/Desktop/screen.png

# 运行一个自然语言自动化任务
peekaboo agent "Open Notes and create a TODO list with three items"

更重要的是，它可以作为 MCP Server 接入 Codex、Claude Code、Cursor 等工具。也就是说，Peekaboo 不是一个孤立的小工具，而是可以变成 Agent 工具箱里的“眼睛和手”。

Computer Use 开始进入“能用”阶段了

过去的 Computer Use 更像 demo：能演示，能录屏，能让人兴奋，但一旦放进真实桌面环境，就会遇到权限、延迟、窗口焦点、控件识别、弹窗处理、状态复用等一堆细碎问题。

Peekaboo v3 这次有意思的地方在于，它在补这些繁杂的工作：

统一截图和 UI 检测；
统一 CLI 与 MCP 的输出；
加强快照和上下文；
优先使用原生 UI 动作；
改善菜单栏、Dock、弹窗、窗口、Space 等 macOS 日常场景；
给开发者更稳定的 JSON 和诊断信息。

Computer Use 正在从“模型能力展示”走向“工程系统”。这一步恰恰是 Agent 真正落地前必须经历的阶段。

Peekaboo v3 的回归，表面上看是 OpenClaw 生态多了一个更强的 macOS 自动化工具。

AI Agent 正在从会说话，走向会操作；从理解任务，走向完成任务。

以前我们把 AI 当成副驾驶，它告诉你下一步怎么做。

接下来，越来越多工具会让 AI 变成真正能接手局部流程的执行者。

Peekaboo 这次回归，可能就是 macOS Agent 工具链里一个很重要的信号：Computer Use 不再只是实验室里的概念，而是开始变成开发者每天可以调用的基础设施。