乐于分享
好东西不私藏

Peekaboo:OpenClaw 的 Computer Use

Peekaboo:OpenClaw 的 Computer Use

这段时间,很多人第一次直观感受到 AI Agent 的“行动力”,其实不是从某个模型榜单开始的,而是从 Codex 里的 computer use 和 browser use 开始的。

你让它打开网页、点击按钮、读取页面内容、切换应用、输入文字,它不再只是回你一句“建议你这样做”,而是真的开始代你操作。

这类体验很容易让人冒出一个问题:

为什么 Codex 现在能“看网页”“点桌面”,而很多 Agent 还停留在聊天框里?

答案并不神秘。

因为 AI 真正缺的,从来不只是大脑,而是眼睛和手

browser use 解决的是浏览器里的观察与操作,computer use 解决的是桌面层面的观察与操作。而放到 OpenClaw 这条线里,承担相似角色、而且越来越关键的那块能力,就是 Peekaboo

它会写代码、会查资料、会给建议,但一碰到真实桌面就容易卡住: 看不见屏幕上的按钮,不知道当前窗口里有什么,也没法像人一样去点、去输、去拖。你让它“打开 Safari 搜索资料”,如果没有桌面感知层,它大概率只能在对话框里礼貌地表示无能为力。

而 Peekaboo,就是 OpenClaw 补上这块短板的那层能力。

截至 2026 年 5 月 11 日,从官方文档的定义看,Peekaboo 已经不是一个“截图小工具”这么简单。它更像是一个专为 macOS 准备的自动化工具包: 一边负责捕捉像素、读取辅助功能树,一边负责驱动点击、输入、滚动、拖拽,同时还把这些能力通过 MCP 暴露给 Codex、Claude Code、Cursor 之类的 AI 客户端。

这也是为什么,越来越多人开始把它理解成: OpenClaw 版的桌面感知与执行底座。

怎么理解Peekaboo

如果你只想快速理解 Peekaboo,我的结论很简单:

如果说 Codex 的 browser use 和 computer use 让更多人第一次看到了 AI 动手操作的样子,那么 Peekaboo 的价值,就是让 OpenClaw 也拥有这套“看懂桌面并立刻动手”的闭环能力。

这件事一旦成立,AI Agent 的能力边界就会发生变化:

  • • 它不再只停留在聊天框里
  • • 它不再只会调用纯 API 工具
  • • 它开始能进入真实 GUI 世界,接管一部分原本必须人工完成的桌面操作

换句话说,Peekaboo 真正解决的,是 “大模型很聪明,但摸不到桌面” 这个老问题。

Peekaboo 到底是什么

按照 Peekaboo 官方文档的表述,它是一个 macOS automation toolkit for humans and agents。中文可以直接理解成: 给人类和 AI Agent 用的 macOS 自动化工具箱

它核心做三件事。

1. 看见屏幕

Peekaboo 可以抓取屏幕、窗口、菜单栏,支持像素级截图,也能结合辅助功能树输出带标注的界面信息。对 AI 来说,这一步特别关键,因为它终于不需要“猜”按钮在哪儿,而是可以先观察再行动。

2. 理解控件

它不只返回一张图片,还能把 UI 元素尽量结构化出来。官方文档里明确提到,Peekaboo 会读取 accessibility tree,并把元素 ID 暴露给后续动作工具。这样 AI 就可以先 see,再对具体元素执行 clickset_valueperform_action

这和传统坐标脚本的差别很大。

前者更像“识别这个按钮然后操作它”,后者更像“盲点某个像素点”。稳定性不是一个级别。

3. 像人一样操作

Peekaboo 提供的动作面很完整,常见的点击、输入、滚动、拖拽、快捷键、窗口切换、菜单操作、Space 切换都在官方命令集中。

所以它本质上并不是“视觉插件”,而是一套完整的感知 + 决策接口 + 执行动作底座。

为什么它对 OpenClaw 特别重要

OpenClaw 这类 Agent 系统,原本已经很擅长做两件事:

  • • 理解自然语言任务
  • • 调用文本世界里的工具链

但要把“能思考”升级成“能代劳”,就必须跨进 GUI 世界。

如果你已经体验过 Codex 的 browser use 和 computer use,这件事其实很好理解:

  • • 前者让 AI 能进浏览器做事
  • • 后者让 AI 能进桌面做事

而 Peekaboo 恰好补的是 OpenClaw 这条链路里最难的一段。

你可以把这套组合理解成:

  • • OpenClaw 负责规划和编排
  • • Peekaboo 负责看见桌面并执行动作

两者配合之后,很多以前只能停留在 demo 里的描述,才开始变成真实工作流。比如:

  • • “帮我打开 Safari,搜索某篇文档,再把结果截图回来”
  • • “切到某个 App,把这个字段填进去,再按提交”
  • • “看一下当前弹窗里写了什么,然后决定点哪个按钮”

这也是为什么 Peekaboo 在官方文档里专门把 Codex、Claude Code、Cursor 这类 MCP 客户端列为典型接入面。

你也可以把它理解得更直白一点:

Codex 把“可见即可操作”这件事带火了,Peekaboo 则是在 OpenClaw 生态里承接这股能力浪潮的关键基础设施。

它最强的不是自动化,而是“闭环”

很多桌面自动化工具都能点击、输入、录制脚本,但 Peekaboo 更值得关注的地方,其实是闭环能力。

过去的自动化常常是这样的:

  1. 1. 先人工录制步骤
  2. 2. 再按固定脚本重放
  3. 3. 一旦界面变了,脚本就脆

Peekaboo 走的是另一条路:

  1. 1. 先看
  2. 2. 再识别
  3. 3. 然后操作
  4. 4. 操作完还能继续观察结果

这就意味着它更适合和 AI 一起工作。

因为大模型最擅长的本来就不是“死记坐标”,而是“观察当前状态,再决定下一步”。

所以从产品视角看,Peekaboo 最有价值的地方不是单个动作,而是它让 Agent 首次拥有了状态感知后的连续动作能力

哪些场景最值得关注

如果你是开发者、效率工具重度用户,或者正在折腾 Agent 工作流,Peekaboo 至少有四类场景很值得看。

开发者桌面协作

这是最直接的场景。

你可以把 Peekaboo 通过 MCP 接到 Codex、Claude Code、Cursor 里,让 AI 不只会写代码,还能顺手操作桌面:

  • • 打开浏览器查文档
  • • 切换 App
  • • 截图当前错误弹窗
  • • 在原生客户端里完成简单操作

以前很多“最后一步得我自己来点”的流程,现在终于能被自动化覆盖。

自愈式操作

这一类场景特别像 Agent 的下一阶段。

OpenClaw 社区里关于浏览器 relay、扩展连接不稳定的 issue 一直不少。比如 2026 年 3 月还有关于 Chrome extension relay 空闲后断连 的问题讨论。Peekaboo 本身不是 relay 修复工具,但它很适合承担“掉线后的补救动作”:

  • • 先检测状态是不是异常
  • • 再唤起相关窗口或扩展界面
  • • 最后点击恢复、重连、确认

这类能力的意义在于,AI 不只是“发现故障后提醒你”,而是开始尝试自己恢复现场

原生应用测试

很多 Web 自动化工具只能覆盖浏览器,但 Peekaboo 面向的是整个 macOS 桌面。

这意味着它可以用于:

  • • 原生 App 的 UI 回归测试
  • • 菜单、弹窗、系统对话框的自动化验证
  • • 多窗口、多 Space 的桌面流程排查

对做 Mac 工具、效率软件、桌面工作流的人来说,这个方向其实比“让 AI 帮你点按钮”更有长期价值。

个人效率代理

更接地气一点的用法,是把它当成你的桌面执行层。

比如你可以让 Agent:

  • • 打开记账软件录入固定信息
  • • 在多个窗口之间搬运内容
  • • 根据屏幕内容做下一步判断
  • • 处理一些重复、低风险、规则明确的桌面动作

真正值得期待的,不是某一个神奇 demo,而是它把许多碎片化操作慢慢接成了工作流。

怎么上手最省事

官方文档给出的安装方式已经很清楚了。

如果你想把它当本地 CLI 或桌面工具来用,最省事的是 Homebrew:

brew install steipete/tap/peekaboo
peekaboo --version

如果你主要是想接给 MCP 客户端,比如 Codex、Claude Code、Cursor,那么官方推荐的是:

npx -y @steipete/peekaboo mcp

注意权限安全

只要提到桌面自动化,权限就是绕不过去的话题。

Peekaboo 官方权限文档明确写了:

  • • Screen Recording 是必需项
  • • Accessibility 是推荐项,但想稳定做点击、聚焦、菜单和对话框操作,实际基本也离不开它

更重要的是,官方文档还特别提醒了一个容易被忽略的问题:

你需要给真正运行 Peekaboo 的宿主进程授权。

这在 macOS 上非常关键。

如果你是在 Terminal、iTerm、Warp、VS Code 终端里跑它,你要授权的是这些宿主。
如果你走的是 Peekaboo Bridge host,那么权限检查和授权对象可能又会落到 Bridge host 上。

这也解释了为什么社区里会出现一些“明明开了权限却还是失败”的问题。

例如:

  • • 2026 年 1 月的 OpenClaw issue #940,讨论的是 Peekaboo 在 daemon/gateway 里调用时出现权限异常
  • • 2026 年 2 月的 Peekaboo issue #75,讨论的是在 Node.js 子进程场景下,Screen Recording 检查异常

所以更准确的安全结论不是“给了 node 权限,所有 npm 包都自动接管电脑”,而是:

只要你把桌面自动化权限交给了某个高权限宿主进程,就要非常谨慎地控制是谁在那个上下文里执行命令。

这依然是供应链和执行面暴露风险,只是表达上要比“所有 npm 包都获得全局能力”更准确。

对普通用户来说,最实用的建议有三条:

  1. 1. 只在受信任的终端、编辑器或宿主环境里运行 Peekaboo
  2. 2. 尽量少给不必要的进程开辅助功能和录屏权限
  3. 3. 把它优先用于可验证、低风险、可回滚的桌面动作

它还在成长

如果你回看 OpenClaw 的公开发布节奏,会发现一个很有意思的变化。

从 GitHub Releases 能看到,

2026 年 1 月 24 日 项目发布时叫 Clawdbot

到 2026 年 1 月 30 日,公开 release 已经切成 OpenClaw

而 Peekaboo 这边,2025 年底开始推进 v3 beta,把 Agent、MCP、Bridge、桌面自动化这些能力往一个更统一的体系里收。

这说明 Peekaboo 并不是“后来硬塞进去的外挂”,而是在 OpenClaw 生态快速成型过程中,越来越核心的一层基础设施。

说白了,OpenClaw 负责让 Agent 更像“会思考的系统”,Peekaboo 则负责让它更像“真的能在你电脑上动手的助手”。

一灯短评

如果你最近在关注 Agent、MCP、Codex、Claude Code、Cursor 这些工具,Peekaboo 绝对值得你花时间研究。

因为它代表的不是一个单独项目的更新,而是一种更重要的趋势:

AI 正在从“会回答问题”,进入“会观察环境并替你操作”的阶段。

而 Peekaboo,就是这个阶段里非常典型、也非常实用的一把铲子。

如果你后面想看,我也可以继续把 Peekaboo 的 MCP 配置方式、常用命令、以及和 OpenClaw/Codex 的接法 再单独拆成一篇更偏实操的上手指南。

参考资料

  • • Peekaboo 官方文档: https://peekaboo.sh/
  • • Peekaboo GitHub 仓库: https://github.com/openclaw/Peekaboo
  • • OpenClaw Releases: [https://github.com/openclaw/openclaw)

如果你对这类 AI Agent + 桌面自动化 + MCP 方向也感兴趣,关注我,后面我会继续拆 OpenClaw、Peekaboo、Codex 这条线里真正值得上手的工具和工作流。