Peekaboo:OpenClaw 的 Computer Use

computer use 和 browser use 开始的。你让它打开网页、点击按钮、读取页面内容、切换应用、输入文字,它不再只是回你一句“建议你这样做”,而是真的开始代你操作。
这类体验很容易让人冒出一个问题:
为什么 Codex 现在能“看网页”“点桌面”,而很多 Agent 还停留在聊天框里?
答案并不神秘。
因为 AI 真正缺的,从来不只是大脑,而是眼睛和手。
browser use 解决的是浏览器里的观察与操作,computer use 解决的是桌面层面的观察与操作。而放到 OpenClaw 这条线里,承担相似角色、而且越来越关键的那块能力,就是 Peekaboo。
它会写代码、会查资料、会给建议,但一碰到真实桌面就容易卡住: 看不见屏幕上的按钮,不知道当前窗口里有什么,也没法像人一样去点、去输、去拖。你让它“打开 Safari 搜索资料”,如果没有桌面感知层,它大概率只能在对话框里礼貌地表示无能为力。
而 Peekaboo,就是 OpenClaw 补上这块短板的那层能力。
截至 2026 年 5 月 11 日,从官方文档的定义看,Peekaboo 已经不是一个“截图小工具”这么简单。它更像是一个专为 macOS 准备的自动化工具包: 一边负责捕捉像素、读取辅助功能树,一边负责驱动点击、输入、滚动、拖拽,同时还把这些能力通过 MCP 暴露给 Codex、Claude Code、Cursor 之类的 AI 客户端。
这也是为什么,越来越多人开始把它理解成: OpenClaw 版的桌面感知与执行底座。
怎么理解Peekaboo
如果你只想快速理解 Peekaboo,我的结论很简单:
如果说 Codex 的 browser use 和 computer use 让更多人第一次看到了 AI 动手操作的样子,那么 Peekaboo 的价值,就是让 OpenClaw 也拥有这套“看懂桌面并立刻动手”的闭环能力。
这件事一旦成立,AI Agent 的能力边界就会发生变化:
-
• 它不再只停留在聊天框里 -
• 它不再只会调用纯 API 工具 -
• 它开始能进入真实 GUI 世界,接管一部分原本必须人工完成的桌面操作
换句话说,Peekaboo 真正解决的,是 “大模型很聪明,但摸不到桌面” 这个老问题。
Peekaboo 到底是什么
按照 Peekaboo 官方文档的表述,它是一个 macOS automation toolkit for humans and agents。中文可以直接理解成: 给人类和 AI Agent 用的 macOS 自动化工具箱。
它核心做三件事。
1. 看见屏幕
Peekaboo 可以抓取屏幕、窗口、菜单栏,支持像素级截图,也能结合辅助功能树输出带标注的界面信息。对 AI 来说,这一步特别关键,因为它终于不需要“猜”按钮在哪儿,而是可以先观察再行动。
2. 理解控件
它不只返回一张图片,还能把 UI 元素尽量结构化出来。官方文档里明确提到,Peekaboo 会读取 accessibility tree,并把元素 ID 暴露给后续动作工具。这样 AI 就可以先 see,再对具体元素执行 click、set_value、perform_action。
这和传统坐标脚本的差别很大。
前者更像“识别这个按钮然后操作它”,后者更像“盲点某个像素点”。稳定性不是一个级别。
3. 像人一样操作
Peekaboo 提供的动作面很完整,常见的点击、输入、滚动、拖拽、快捷键、窗口切换、菜单操作、Space 切换都在官方命令集中。
所以它本质上并不是“视觉插件”,而是一套完整的感知 + 决策接口 + 执行动作底座。
为什么它对 OpenClaw 特别重要
OpenClaw 这类 Agent 系统,原本已经很擅长做两件事:
-
• 理解自然语言任务 -
• 调用文本世界里的工具链
但要把“能思考”升级成“能代劳”,就必须跨进 GUI 世界。
如果你已经体验过 Codex 的 browser use 和 computer use,这件事其实很好理解:
-
• 前者让 AI 能进浏览器做事 -
• 后者让 AI 能进桌面做事
而 Peekaboo 恰好补的是 OpenClaw 这条链路里最难的一段。
你可以把这套组合理解成:
-
• OpenClaw 负责规划和编排 -
• Peekaboo 负责看见桌面并执行动作
两者配合之后,很多以前只能停留在 demo 里的描述,才开始变成真实工作流。比如:
-
• “帮我打开 Safari,搜索某篇文档,再把结果截图回来” -
• “切到某个 App,把这个字段填进去,再按提交” -
• “看一下当前弹窗里写了什么,然后决定点哪个按钮”
这也是为什么 Peekaboo 在官方文档里专门把 Codex、Claude Code、Cursor 这类 MCP 客户端列为典型接入面。
你也可以把它理解得更直白一点:
Codex 把“可见即可操作”这件事带火了,Peekaboo 则是在 OpenClaw 生态里承接这股能力浪潮的关键基础设施。
它最强的不是自动化,而是“闭环”
很多桌面自动化工具都能点击、输入、录制脚本,但 Peekaboo 更值得关注的地方,其实是闭环能力。
过去的自动化常常是这样的:
-
1. 先人工录制步骤 -
2. 再按固定脚本重放 -
3. 一旦界面变了,脚本就脆
Peekaboo 走的是另一条路:
-
1. 先看 -
2. 再识别 -
3. 然后操作 -
4. 操作完还能继续观察结果
这就意味着它更适合和 AI 一起工作。
因为大模型最擅长的本来就不是“死记坐标”,而是“观察当前状态,再决定下一步”。
所以从产品视角看,Peekaboo 最有价值的地方不是单个动作,而是它让 Agent 首次拥有了状态感知后的连续动作能力。
哪些场景最值得关注
如果你是开发者、效率工具重度用户,或者正在折腾 Agent 工作流,Peekaboo 至少有四类场景很值得看。
开发者桌面协作
这是最直接的场景。
你可以把 Peekaboo 通过 MCP 接到 Codex、Claude Code、Cursor 里,让 AI 不只会写代码,还能顺手操作桌面:
-
• 打开浏览器查文档 -
• 切换 App -
• 截图当前错误弹窗 -
• 在原生客户端里完成简单操作
以前很多“最后一步得我自己来点”的流程,现在终于能被自动化覆盖。
自愈式操作
这一类场景特别像 Agent 的下一阶段。
OpenClaw 社区里关于浏览器 relay、扩展连接不稳定的 issue 一直不少。比如 2026 年 3 月还有关于 Chrome extension relay 空闲后断连 的问题讨论。Peekaboo 本身不是 relay 修复工具,但它很适合承担“掉线后的补救动作”:
-
• 先检测状态是不是异常 -
• 再唤起相关窗口或扩展界面 -
• 最后点击恢复、重连、确认
这类能力的意义在于,AI 不只是“发现故障后提醒你”,而是开始尝试自己恢复现场。
原生应用测试
很多 Web 自动化工具只能覆盖浏览器,但 Peekaboo 面向的是整个 macOS 桌面。
这意味着它可以用于:
-
• 原生 App 的 UI 回归测试 -
• 菜单、弹窗、系统对话框的自动化验证 -
• 多窗口、多 Space 的桌面流程排查
对做 Mac 工具、效率软件、桌面工作流的人来说,这个方向其实比“让 AI 帮你点按钮”更有长期价值。
个人效率代理
更接地气一点的用法,是把它当成你的桌面执行层。
比如你可以让 Agent:
-
• 打开记账软件录入固定信息 -
• 在多个窗口之间搬运内容 -
• 根据屏幕内容做下一步判断 -
• 处理一些重复、低风险、规则明确的桌面动作
真正值得期待的,不是某一个神奇 demo,而是它把许多碎片化操作慢慢接成了工作流。
怎么上手最省事
官方文档给出的安装方式已经很清楚了。
如果你想把它当本地 CLI 或桌面工具来用,最省事的是 Homebrew:
brew install steipete/tap/peekaboo
peekaboo --version
如果你主要是想接给 MCP 客户端,比如 Codex、Claude Code、Cursor,那么官方推荐的是:
npx -y @steipete/peekaboo mcp
注意权限安全
只要提到桌面自动化,权限就是绕不过去的话题。
Peekaboo 官方权限文档明确写了:
-
• Screen Recording 是必需项 -
• Accessibility 是推荐项,但想稳定做点击、聚焦、菜单和对话框操作,实际基本也离不开它
更重要的是,官方文档还特别提醒了一个容易被忽略的问题:
你需要给真正运行 Peekaboo 的宿主进程授权。
这在 macOS 上非常关键。
如果你是在 Terminal、iTerm、Warp、VS Code 终端里跑它,你要授权的是这些宿主。
如果你走的是 Peekaboo Bridge host,那么权限检查和授权对象可能又会落到 Bridge host 上。
这也解释了为什么社区里会出现一些“明明开了权限却还是失败”的问题。
例如:
-
• 2026 年 1 月的 OpenClaw issue #940,讨论的是 Peekaboo 在 daemon/gateway 里调用时出现权限异常 -
• 2026 年 2 月的 Peekaboo issue #75,讨论的是在 Node.js 子进程场景下,Screen Recording 检查异常
所以更准确的安全结论不是“给了 node 权限,所有 npm 包都自动接管电脑”,而是:
只要你把桌面自动化权限交给了某个高权限宿主进程,就要非常谨慎地控制是谁在那个上下文里执行命令。
这依然是供应链和执行面暴露风险,只是表达上要比“所有 npm 包都获得全局能力”更准确。
对普通用户来说,最实用的建议有三条:
-
1. 只在受信任的终端、编辑器或宿主环境里运行 Peekaboo -
2. 尽量少给不必要的进程开辅助功能和录屏权限 -
3. 把它优先用于可验证、低风险、可回滚的桌面动作
它还在成长
如果你回看 OpenClaw 的公开发布节奏,会发现一个很有意思的变化。
从 GitHub Releases 能看到,
2026 年 1 月 24 日 项目发布时叫 Clawdbot;
到 2026 年 1 月 30 日,公开 release 已经切成 OpenClaw。
而 Peekaboo 这边,2025 年底开始推进 v3 beta,把 Agent、MCP、Bridge、桌面自动化这些能力往一个更统一的体系里收。
这说明 Peekaboo 并不是“后来硬塞进去的外挂”,而是在 OpenClaw 生态快速成型过程中,越来越核心的一层基础设施。
说白了,OpenClaw 负责让 Agent 更像“会思考的系统”,Peekaboo 则负责让它更像“真的能在你电脑上动手的助手”。
一灯短评
如果你最近在关注 Agent、MCP、Codex、Claude Code、Cursor 这些工具,Peekaboo 绝对值得你花时间研究。
因为它代表的不是一个单独项目的更新,而是一种更重要的趋势:
AI 正在从“会回答问题”,进入“会观察环境并替你操作”的阶段。
而 Peekaboo,就是这个阶段里非常典型、也非常实用的一把铲子。
如果你后面想看,我也可以继续把 Peekaboo 的 MCP 配置方式、常用命令、以及和 OpenClaw/Codex 的接法 再单独拆成一篇更偏实操的上手指南。
参考资料
-
• Peekaboo 官方文档: https://peekaboo.sh/
-
• Peekaboo GitHub 仓库: https://github.com/openclaw/Peekaboo -
• OpenClaw Releases: [https://github.com/openclaw/openclaw)
如果你对这类 AI Agent + 桌面自动化 + MCP 方向也感兴趣,关注我,后面我会继续拆 OpenClaw、Peekaboo、Codex 这条线里真正值得上手的工具和工作流。
夜雨聆风