Peekaboo:OpenClaw 的 Computer Use-夜雨聆风

Peekaboo:OpenClaw 的 Computer Use

这段时间，很多人第一次直观感受到 AI Agent 的“行动力”，其实不是从某个模型榜单开始的，而是从 Codex 里的 computer use 和 browser use 开始的。

你让它打开网页、点击按钮、读取页面内容、切换应用、输入文字，它不再只是回你一句“建议你这样做”，而是真的开始代你操作。

这类体验很容易让人冒出一个问题:

为什么 Codex 现在能“看网页”“点桌面”，而很多 Agent 还停留在聊天框里？

答案并不神秘。

因为 AI 真正缺的，从来不只是大脑，而是眼睛和手。

browser use 解决的是浏览器里的观察与操作，computer use 解决的是桌面层面的观察与操作。而放到 OpenClaw 这条线里，承担相似角色、而且越来越关键的那块能力，就是 Peekaboo。

它会写代码、会查资料、会给建议，但一碰到真实桌面就容易卡住: 看不见屏幕上的按钮，不知道当前窗口里有什么，也没法像人一样去点、去输、去拖。你让它“打开 Safari 搜索资料”，如果没有桌面感知层，它大概率只能在对话框里礼貌地表示无能为力。

而 Peekaboo，就是 OpenClaw 补上这块短板的那层能力。

截至 2026 年 5 月 11 日，从官方文档的定义看，Peekaboo 已经不是一个“截图小工具”这么简单。它更像是一个专为 macOS 准备的自动化工具包: 一边负责捕捉像素、读取辅助功能树，一边负责驱动点击、输入、滚动、拖拽，同时还把这些能力通过 MCP 暴露给 Codex、Claude Code、Cursor 之类的 AI 客户端。

这也是为什么，越来越多人开始把它理解成: OpenClaw 版的桌面感知与执行底座。

怎么理解Peekaboo

如果你只想快速理解 Peekaboo，我的结论很简单:

如果说 Codex 的 browser use 和 computer use 让更多人第一次看到了 AI 动手操作的样子，那么 Peekaboo 的价值，就是让 OpenClaw 也拥有这套“看懂桌面并立刻动手”的闭环能力。

这件事一旦成立，AI Agent 的能力边界就会发生变化:

• 它不再只停留在聊天框里
• 它不再只会调用纯 API 工具
• 它开始能进入真实 GUI 世界，接管一部分原本必须人工完成的桌面操作

换句话说，Peekaboo 真正解决的，是 “大模型很聪明，但摸不到桌面” 这个老问题。

Peekaboo 到底是什么

按照 Peekaboo 官方文档的表述，它是一个 macOS automation toolkit for humans and agents。中文可以直接理解成: 给人类和 AI Agent 用的 macOS 自动化工具箱。

它核心做三件事。

1. 看见屏幕

Peekaboo 可以抓取屏幕、窗口、菜单栏，支持像素级截图，也能结合辅助功能树输出带标注的界面信息。对 AI 来说，这一步特别关键，因为它终于不需要“猜”按钮在哪儿，而是可以先观察再行动。

2. 理解控件

它不只返回一张图片，还能把 UI 元素尽量结构化出来。官方文档里明确提到，Peekaboo 会读取 accessibility tree，并把元素 ID 暴露给后续动作工具。这样 AI 就可以先 see，再对具体元素执行 click、set_value、perform_action。

这和传统坐标脚本的差别很大。

前者更像“识别这个按钮然后操作它”，后者更像“盲点某个像素点”。稳定性不是一个级别。

3. 像人一样操作

Peekaboo 提供的动作面很完整，常见的点击、输入、滚动、拖拽、快捷键、窗口切换、菜单操作、Space 切换都在官方命令集中。

所以它本质上并不是“视觉插件”，而是一套完整的感知 + 决策接口 + 执行动作底座。

为什么它对 OpenClaw 特别重要

OpenClaw 这类 Agent 系统，原本已经很擅长做两件事:

• 理解自然语言任务
• 调用文本世界里的工具链

但要把“能思考”升级成“能代劳”，就必须跨进 GUI 世界。

如果你已经体验过 Codex 的 browser use 和 computer use，这件事其实很好理解:

• 前者让 AI 能进浏览器做事
• 后者让 AI 能进桌面做事

而 Peekaboo 恰好补的是 OpenClaw 这条链路里最难的一段。

你可以把这套组合理解成:

• OpenClaw 负责规划和编排
• Peekaboo 负责看见桌面并执行动作

两者配合之后，很多以前只能停留在 demo 里的描述，才开始变成真实工作流。比如:

• “帮我打开 Safari，搜索某篇文档，再把结果截图回来”
• “切到某个 App，把这个字段填进去，再按提交”
• “看一下当前弹窗里写了什么，然后决定点哪个按钮”

这也是为什么 Peekaboo 在官方文档里专门把 Codex、Claude Code、Cursor 这类 MCP 客户端列为典型接入面。

你也可以把它理解得更直白一点:

Codex 把“可见即可操作”这件事带火了，Peekaboo 则是在 OpenClaw 生态里承接这股能力浪潮的关键基础设施。

它最强的不是自动化，而是“闭环”

很多桌面自动化工具都能点击、输入、录制脚本，但 Peekaboo 更值得关注的地方，其实是闭环能力。

过去的自动化常常是这样的:

1. 先人工录制步骤
2. 再按固定脚本重放
3. 一旦界面变了，脚本就脆

Peekaboo 走的是另一条路:

1. 先看
2. 再识别
3. 然后操作
4. 操作完还能继续观察结果

这就意味着它更适合和 AI 一起工作。

因为大模型最擅长的本来就不是“死记坐标”，而是“观察当前状态，再决定下一步”。

所以从产品视角看，Peekaboo 最有价值的地方不是单个动作，而是它让 Agent 首次拥有了状态感知后的连续动作能力。

哪些场景最值得关注

如果你是开发者、效率工具重度用户，或者正在折腾 Agent 工作流，Peekaboo 至少有四类场景很值得看。

开发者桌面协作

这是最直接的场景。

你可以把 Peekaboo 通过 MCP 接到 Codex、Claude Code、Cursor 里，让 AI 不只会写代码，还能顺手操作桌面:

• 打开浏览器查文档
• 切换 App
• 截图当前错误弹窗
• 在原生客户端里完成简单操作

以前很多“最后一步得我自己来点”的流程，现在终于能被自动化覆盖。

自愈式操作

这一类场景特别像 Agent 的下一阶段。

OpenClaw 社区里关于浏览器 relay、扩展连接不稳定的 issue 一直不少。比如 2026 年 3 月还有关于 Chrome extension relay 空闲后断连 的问题讨论。Peekaboo 本身不是 relay 修复工具，但它很适合承担“掉线后的补救动作”:

• 先检测状态是不是异常
• 再唤起相关窗口或扩展界面
• 最后点击恢复、重连、确认

这类能力的意义在于，AI 不只是“发现故障后提醒你”，而是开始尝试自己恢复现场。

原生应用测试

很多 Web 自动化工具只能覆盖浏览器，但 Peekaboo 面向的是整个 macOS 桌面。

这意味着它可以用于:

• 原生 App 的 UI 回归测试
• 菜单、弹窗、系统对话框的自动化验证
• 多窗口、多 Space 的桌面流程排查

对做 Mac 工具、效率软件、桌面工作流的人来说，这个方向其实比“让 AI 帮你点按钮”更有长期价值。

个人效率代理

更接地气一点的用法，是把它当成你的桌面执行层。

比如你可以让 Agent:

• 打开记账软件录入固定信息
• 在多个窗口之间搬运内容
• 根据屏幕内容做下一步判断
• 处理一些重复、低风险、规则明确的桌面动作

真正值得期待的，不是某一个神奇 demo，而是它把许多碎片化操作慢慢接成了工作流。

怎么上手最省事

官方文档给出的安装方式已经很清楚了。

如果你想把它当本地 CLI 或桌面工具来用，最省事的是 Homebrew:

brew install steipete/tap/peekaboo
peekaboo --version

如果你主要是想接给 MCP 客户端，比如 Codex、Claude Code、Cursor，那么官方推荐的是:

npx -y @steipete/peekaboo mcp

注意权限安全

只要提到桌面自动化，权限就是绕不过去的话题。

Peekaboo 官方权限文档明确写了:

• Screen Recording 是必需项
• Accessibility 是推荐项，但想稳定做点击、聚焦、菜单和对话框操作，实际基本也离不开它

更重要的是，官方文档还特别提醒了一个容易被忽略的问题:

你需要给真正运行 Peekaboo 的宿主进程授权。

这在 macOS 上非常关键。

如果你是在 Terminal、iTerm、Warp、VS Code 终端里跑它，你要授权的是这些宿主。
如果你走的是 Peekaboo Bridge host，那么权限检查和授权对象可能又会落到 Bridge host 上。

这也解释了为什么社区里会出现一些“明明开了权限却还是失败”的问题。

例如:

• 2026 年 1 月的 OpenClaw issue #940，讨论的是 Peekaboo 在 daemon/gateway 里调用时出现权限异常
• 2026 年 2 月的 Peekaboo issue #75，讨论的是在 Node.js 子进程场景下，Screen Recording 检查异常

所以更准确的安全结论不是“给了 node 权限，所有 npm 包都自动接管电脑”，而是:

只要你把桌面自动化权限交给了某个高权限宿主进程，就要非常谨慎地控制是谁在那个上下文里执行命令。

这依然是供应链和执行面暴露风险，只是表达上要比“所有 npm 包都获得全局能力”更准确。

对普通用户来说，最实用的建议有三条:

1. 只在受信任的终端、编辑器或宿主环境里运行 Peekaboo
2. 尽量少给不必要的进程开辅助功能和录屏权限
3. 把它优先用于可验证、低风险、可回滚的桌面动作

它还在成长

如果你回看 OpenClaw 的公开发布节奏，会发现一个很有意思的变化。

从 GitHub Releases 能看到，

2026 年 1 月 24 日 项目发布时叫 Clawdbot；

到 2026 年 1 月 30 日，公开 release 已经切成 OpenClaw。

而 Peekaboo 这边，2025 年底开始推进 v3 beta，把 Agent、MCP、Bridge、桌面自动化这些能力往一个更统一的体系里收。

这说明 Peekaboo 并不是“后来硬塞进去的外挂”，而是在 OpenClaw 生态快速成型过程中，越来越核心的一层基础设施。

说白了，OpenClaw 负责让 Agent 更像“会思考的系统”，Peekaboo 则负责让它更像“真的能在你电脑上动手的助手”。

一灯短评

如果你最近在关注 Agent、MCP、Codex、Claude Code、Cursor 这些工具，Peekaboo 绝对值得你花时间研究。

因为它代表的不是一个单独项目的更新，而是一种更重要的趋势:

AI 正在从“会回答问题”，进入“会观察环境并替你操作”的阶段。

而 Peekaboo，就是这个阶段里非常典型、也非常实用的一把铲子。

如果你后面想看，我也可以继续把 Peekaboo 的 MCP 配置方式、常用命令、以及和 OpenClaw/Codex 的接法 再单独拆成一篇更偏实操的上手指南。

参考资料

• Peekaboo 官方文档: https://peekaboo.sh/

• Peekaboo GitHub 仓库: https://github.com/openclaw/Peekaboo
• OpenClaw Releases: [https://github.com/openclaw/openclaw)

如果你对这类 AI Agent + 桌面自动化 + MCP 方向也感兴趣，关注我，后面我会继续拆 OpenClaw、Peekaboo、Codex 这条线里真正值得上手的工具和工作流。