OpenClaw 长出手和眼:Peekaboo v3 让 AI 真正操控 Mac
2026 年 5 月 9 日,Peter Steinberger(@steipete)在 X 上连发三条推文,宣布了 Peekaboo v3 的正式登场。
Peekaboo 3.0 is live. Biggest release since 2.0. Action-first macOS computer use. Unified screenshot + UI detection.
短短一天内,Peekaboo 连更三个 beta 版本(v3.0.0-beta1 到 beta3),最终推进到 beta4。这条推文引发了 Hacker News、Reddit、36 氪等平台的密集讨论。
如果你用过 Claude Code、ChatGPT 或者任何 AI 编程工具,你会发现它们都有一个共同的软肋:只能陪你聊天和写代码,却无法真正操控你的桌面。它们看不到屏幕上的按钮,点不了弹窗里的”确认”,更无法自动完成多步骤的 GUI 操作。
Peekaboo v3 要解决的正是这个”最后一公里”的问题。
Peekaboo 是由 Peter Steinberger(steipete)开发的一个 macOS 自动化工具包,官方定位是:
macOS automation toolkit for humans and agents (为人类和 Agent 打造的 macOS 自动化工具)
https://github.com/steipete/Peekaboo
在 OpenClaw 生态中,Peekaboo 扮演的是“手和眼”的角色:
OpenClaw 负责”谁来找我”、”做什么事”、”分配给哪个 Agent”
Peekaboo 负责屏幕截图、UI 元素识别、鼠标点击、键盘输入、菜单操作——也就是真正操控 Mac 桌面上的每一个像素
|
|
|
|
| v1 |
|
|
| v2 |
|
截图 + 辅助功能树读取 + MCP Server
|
| v3 |
|
完整 GUI 自动化 + 原生 Agent 流 + 多屏支持
|
v3 被 Peter 称为 “自 v2 以来最大的版本更新”,从”能看”升级为”能看、能点、能操作”。
三、核心理念:Action-First Computer Use
Peekaboo v2 的关键词是”截图”——AI Agent 可以调用它来截取屏幕内容,然后用视觉模型分析图片。但这只是”看”。
Peekaboo v3 的核心跃迁是 “Action-First”(动作优先):
读取 macOS 辅助功能树(Accessibility Tree),获取 UI 元素的精确坐标和层级
支持弹窗、菜单、按钮、输入框等所有 macOS 原生控件
菜单导航(Menu bar interaction)
v2 让 AI “能看”,v3 让 AI “能动手”。
Peekaboo v3 的技术架构可以概括为 三个引擎:
通过 macOS 原生的 CoreGraphics API 捕获屏幕像素,支持按窗口、按应用、按显示器三种粒度截屏。v3 新增了基于 display 的截屏模式,解决了多显示器场景下坐标映射不准确的问题。
辅助功能引擎(Accessibility Engine)
读取 macOS 辅助功能树,获取每个 UI 元素的类型、位置、层级关系。这使得 Peekaboo 不仅能”看到像素”,还能”理解控件”——知道哪个是按钮、哪个是输入框、哪个是菜单项。
通过 CGEvent 和 AXUIElement 实现真实的鼠标点击、键盘输入、窗口操作。v3 新增了滚动自动化和手势模拟,操作能力大幅扩展。
v3 最大的亮点之一是 原生 Agent 流(Native Agent Flows):
# v2 方式:手动调用一个个工具peekaboo screenshot# → 分析图片 → 手动指定坐标点击 → 再截图验证# v3 方式:自然语言描述任务,Agent 自动链式执行peekaboo “打开系统设置,切换到网络面板,关闭 Wi-Fi”
Agent 会自动将自然语言任务拆解为多步骤操作,每一步完成后自动截图验证,再执行下一步。这个过程完全在本地完成。
Peekaboo 同时作为 MCP(Model Context Protocol)Server 运行,可以被 Claude Desktop、Cursor、Claude Code 等任何支持 MCP 的客户端调用。
不再托管/管理外部 MCP Server(专注自身功能)
更干净的 JSON 输出(CLI 和 MCP 统一格式)
Peekaboo 支持接入本地视觉模型进行 UI 分析,也支持通过远程模型 API 进行视觉问答。这意味着用户可以在”完全离线”和”云端高性能”之间自由选择。
# 通过 Homebrew 安装brew install peekaboo# 或者直接运行(无需安装)npx peekaboo
# 截取当前屏幕peekaboo screenshot# 截取指定应用窗口peekaboo screenshot –app “Safari”# 截图并进行视觉问答peekaboo screenshot –question “屏幕上有几个窗口?”# 使用 Agent 模式自动操作peekaboo “打开系统偏好设置”
在 Claude Desktop 或 Cursor 的配置中添加:
{ “mcpServers”: { “peekaboo”: { “command”: “npx”, “args”: [“peekaboo”, “mcp”] } }}
添加后,Claude 就能直接调用 Peekaboo 进行屏幕截图和 GUI 操作。
Peekaboo 是 OpenClaw 的内置技能(Skill),在 OpenClaw 配置中自动启用:
/peekaboo screenshot/peekaboo click “Submit”/peekaboo agent “关闭 Wi-Fi”
独立开发者在发布 macOS 应用前,用 Peekaboo 让 AI Agent 自动测试 UI——打开应用、点击各个按钮、验证弹窗和状态,比手动测试快数倍。Reddit 上已有开发者讨论用 Peekaboo + Claude Code 做”发布前自动化测试”。
结合 Obsidian MCP 和 Peekaboo,AI 可以自动截取项目界面、标注功能模块,生成图文并茂的项目文档。
Peekaboo v3 的多 Agent 流支持多个 AI 协作体在同一台 Mac 上并行工作——一个 Agent 负责开发,另一个负责测试,各自控制不同的窗口和应用。
批量文件重命名、系统设置调整、多窗口布局——任何原本需要人工点击的场景,Peekaboo 都能让 AI 代劳。
八、Peter Steinberger:一个人 + AI 的极致生产力
Peekaboo v3 的背后是 Peter Steinberger 本人——一个在 AI 时代将个人生产力推到极致的开发者。
OpenClaw 项目在数月内突破 20 万 GitHub Stars,成为史上增长最快的开源项目之一
Peter 在 X 上发过一条推文:Building Peekaboo with Peekaboo。这意味着 v3 的开发过程中,Peekaboo 本身就被用来自动化测试和验证——用自己测试自己。
这种自举能力在计算机使用工具中是罕见的,也是 Peekaboo 质量的有力保证。
HN 上关于 Peekaboo 的讨论集中在两个方向:
认可:终于有工具解决了 AI Agent “无法验证 UI 变化”的痛点
安全担忧:给 AI 完整 GUI 控制权是否安全?权限模型是否足够?
r/ChatGPTCoding:将 Peekaboo 列为解决”Agent 能力缺口”的关键工具之一
r/ClaudeCode:在 54 个 MCP Server 安全扫描中纳入 Peekaboo,发现一个屏幕录制权限相关的 bug(已修复)
r/macapps:独立开发者社区用 Peekaboo 做 AI 辅助应用测试
36 氪以 “OpenClaw 终于长出手和眼” 为题进行了报道,知乎和今日头条均有转载。国内开发者对”一日三更”的开发节奏表示震惊。
Peekaboo v3 的意义不仅在于一个 macOS 工具的功能升级,而在于它代表了 AI Agent 发展方向的 关键一步:
当 AI 不再局限于聊天窗口,而是能够真正看到你的屏幕、点击你的按钮、操作你的窗口时,”AI 辅助”的内涵就被彻底扩展了。
正如 Peter 在 v3 发布推文下说的:这不只是一个截图工具的升级,这是一个系统自动化驱动的诞生。
对于每个 macOS 上的 AI 开发者来说,Peekaboo v3 值得你花十分钟试用——它可能会改变你对”AI 能做什么”的认知边界。
· Peekaboo GitHubhttps://github.com/steipete/Peekaboo
· Peter Steinberger X 推文https://x.com/steipete/status/2053114837698249190
· 36氪:Peter 一日三更发布 Peekaboo v3https://eu.36kr.com/en/p/3804769591893511
· Peekaboo MCP Server 文档https://mcpservers.org/servers/steipete/Peekaboo
· Reddit: We scanned 54 MCP servershttps://www.reddit.com/r/ClaudeCode/comments/1sx65ah/
· Skywork: Peekaboo – Giving AI Agents Vision on macOShttps://skywork.ai/skypage/en/peekaboo-ai-agents-vision-macos/1980891951588245504