OpenClaw终于长出"眼和手"!Peekaboo v3正式发布,AI从此能看屏幕、点按钮
按钮还是你来点,表单还是你来填,软件还是你来操作。
这就像坐在副驾驶指路——嘴上懂路,手上碰不到方向盘。
Peekaboo v3 改变了这一切。它给OpenClaw装上了眼睛和手,让AI从”会聊天”变成”会干活”。
v3
正式版发布
20+
操作命令
MCP
协议原生支持
1日3更
发布节奏狂飙
👀 一、Peekaboo v3 是什么?
Peekaboo 是 OpenClaw 的专属 Computer Use 工具,由 Peter(@steipete)开发,让AI Agent能捕获屏幕截图、读取无障碍访问树、驱动输入操作——简单说就是给AI装上眼睛和手。
名字本身就挺俏皮——”Peekaboo”就是”躲猫猫”。电脑界面确实天天跟自动化躲猫猫:按钮躲在弹窗里,菜单躲在系统栏里,窗口一动坐标全变,焦点一跑输入落空。
人类凭直觉就能修正,AI只能靠更靠谱的眼睛和手。Peekaboo解决的正是这个问题。
💡 一句话总结:
把桌面变成Agent能理解的工作场域。AI看到的不再只是一片像素,而是一张带结构的桌面地图。
📅 二、从停更到一日三更:v3的回归
Peekaboo从去年年末发布v3.0.0-beta3后,开始停更。Peter将精力转向OpenClaw本体——接消息平台、做网关、处理本地运行、支撑Agent调度。
变化发生在最近:
📌 版本时间线
-
🔹 去年6月 — 初版上线
-
🔹 去年年末 — v3.0.0-beta3 发布后停更
-
🔹 2026年4月 — v3.0.0-beta4 试水回归
-
🔹 2026年5月 — v3.0.0 正式版发布
-
🔸 同日 — v3.1.0、v3.1.1、v3.1.2 接连推出(一日三更!)
这种更新密度只有两种可能:要么出了大Bug忙着救火,要么方向终于对齐、积累已久的东西开始倾泻。Peekaboo这次更接近后者。
🔑 为什么现在才变得关键?
模型视觉能力和Computer-Use能力都过了一个临界点。Agent不再只是偶尔演示一下,而是开始接近可持续跑流程的状态。这时,底层自动化工具的价值被放大——模型再聪明,也需要稳定的”眼睛”和”手”。
🎯 三、核心功能亮点
👁️ 亮点1:智能屏幕捕获 + AX树标注
不只是截一张图给模型看,还要把图里的控件、窗口、文本、按钮关系整理出来,形成可追踪、可复盘、可继续操作的现场记录。
🖱️ 亮点2:20+操作命令,覆盖整个macOS
从点击到输入,从窗口管理到系统对话框,Peekaboo提供完整的桌面操作能力:
🤖 亮点3:Agent模式(自然语言驱动)
直接用自然语言指挥AI完成多步自动化任务:
支持provider切换、可恢复会话、可视化反馈。
🔌 亮点4:MCP服务器(接入Claude/Cursor/Codex)
作为MCP Server运行,把所有Peekaboo工具暴露给AI客户端:
Claude Desktop、Cursor、Codex等任何支持MCP的工具都能直接调用Peekaboo的全部能力。
🎬 亮点5:自动化脚本(.peekaboo.json)
支持用JSON文件定义自动化流程,可复现、可分享、可定时执行。CLI命令行、MCP服务、桌面应用三种入口共享同一套核心能力。
🦞 四、OpenClaw 为什么需要 Peekaboo?
OpenClaw最初打动人的地方,是把Agent放进各种消息渠道——Telegram、Slack、iMessage、WhatsApp。最顺手的入口,就是聊天窗口。
可聊天窗口只是入口,真正的工作场景常常在电脑里。
⚠️ 没有Peekaboo的尴尬场景
-
要处理网页后台 → Agent只能告诉你步骤
-
要检查本地应用 → Agent看不到你屏幕
-
要跑模拟器 → Agent碰不到操作界面
-
要填表单 → Agent递给你一张待办清单
✅ 有Peekaboo之后
-
Agent能看到屏幕,找到按钮在哪
-
Agent能点击操作,一步步推进任务
-
Agent能读取反馈,根据结果调整行动
-
Agent能操作桌面,真正”干活”而非”指导”
一句话概括分工:
OpenClaw 管“谁来找我””要做什么””交给哪个Agent”
Peekaboo 管“屏幕上有什么””按钮在哪里””这一刀该往哪儿落”
💻 五、安装与本地部署
📋 前置要求
-
macOS 系统(目前仅支持Mac)
-
需要授予 屏幕录制 和 辅助功能 权限
-
MCP模式需要 Node.js 22+
🍺 方式一:Homebrew安装(推荐,最简单)
⚡ 方式二:npm安装(MCP客户端用)
✅ 适合 Codex、Claude Code、Cursor 等 MCP 客户端
📦 方式三:Mac桌面应用
从 GitHub Releases 下载完整菜单栏应用,包含可视化器、权限流程和状态栏图标:
🔧 方式四:从源码编译
适合想深度定制的开发者:
🔐 六、权限配置(关键步骤!)
安装后必须授予macOS权限,否则无法工作:
🖥️
屏幕录制权限
截图和屏幕捕获必需
♿
辅助功能权限
点击、输入、操作控件必需
✅ 验证安装成功
🌟 七、社区玩法:远程驱动iOS模拟器
社区已经有人用Peekaboo在浏览器里驱动远程iOS模拟器——
-
注册屏幕为状态对象
-
点击”Create Your Vault”按钮
-
等待界面变化
-
截图,继续探索
这展示了Peekaboo的真正价值:不只是”AI看懂一张图”,而是看懂之后——注册状态、选择目标、执行操作、等待反馈、根据新截图继续走。每一步都可以被记录、复盘、继续。
🎯 这才是Agent从”玩具”走向”工具”的分界线
Peekaboo把这些动作变得可观察、可复盘、可继续。对OpenClaw来说,这等于让远程指令和本地执行之间出现了一条可铺设的轨道。
🎯 八、Peekaboo 适合谁用?
🦞
OpenClaw用户
让龙虾真正”动手干活”
👨💻
自动化工程师
构建可复现的桌面自动化流程
🤖
AI开发者
MCP接入Claude/Cursor/Codex
🧪
QA测试
AI驱动的桌面端UI自动化测试
🔗 九、资源链接
📦 GitHub仓库
github.com/openclaw/Peekaboo
📚 官方文档
peekaboo.sh
🍺 一键安装
brew install steipete/tap/peekaboo
OpenClaw从会聊天变成会干活
Peekaboo给了AI眼睛和手
从消息系统,迈向操作系统的边缘
👇 觉得有用?三连支持一下 👇
⭐ GitHub求星📚 阅读文档📥 下载Mac应用
📌 收藏备用,让你的AI助手真正”动手”!🔔 关注AI科技观察,持续追踪OpenClaw生态动态
— 本文由AI科技观察整理 · 2026年5月13日 —
夜雨聆风