乐于分享
好东西不私藏

OpenClaw 长出手和眼:Peekaboo v3 让 AI 真正操控 Mac

OpenClaw 长出手和眼:Peekaboo v3 让 AI 真正操控 Mac

一、引子:当 AI 不再只是”陪聊”
2026 年 5 月 9 日,Peter Steinberger(@steipete)在 X 上连发三条推文,宣布了 Peekaboo v3 的正式登场。
他的原话很直白:
Peekaboo 3.0 is live. Biggest release since 2.0. Action-first macOS computer use. Unified screenshot + UI detection.
短短一天内,Peekaboo 连更三个 beta 版本(v3.0.0-beta1 到 beta3),最终推进到 beta4。这条推文引发了 Hacker News、Reddit、36 氪等平台的密集讨论。
如果你用过 Claude Code、ChatGPT 或者任何 AI 编程工具,你会发现它们都有一个共同的软肋:只能陪你聊天和写代码,却无法真正操控你的桌面。它们看不到屏幕上的按钮,点不了弹窗里的”确认”,更无法自动完成多步骤的 GUI 操作。
Peekaboo v3 要解决的正是这个”最后一公里”的问题。
二、Peekaboo 是什么?
Peekaboo 是由 Peter Steinberger(steipete)开发的一个 macOS 自动化工具包,官方定位是:
macOS automation toolkit for humans and agents (为人类和 Agent 打造的 macOS 自动化工具)
https://github.com/steipete/Peekaboo
核心定位
在 OpenClaw 生态中,Peekaboo 扮演的是“手和眼”的角色:
OpenClaw 负责”谁来找我”、”做什么事”、”分配给哪个 Agent”
Peekaboo 负责屏幕截图、UI 元素识别、鼠标点击、键盘输入、菜单操作——也就是真正操控 Mac 桌面上的每一个像素
发展脉络
版本
时间
核心能力
v1
2024 年
基础截图功能
v2
2025 年
截图 + 辅助功能树读取 + MCP Server
v3
2026 年 5 月
完整 GUI 自动化 + 原生 Agent 流 + 多屏支持
v3 被 Peter 称为 “自 v2 以来最大的版本更新”,从”能看”升级为”能看、能点、能操作”。
三、核心理念:Action-First Computer Use
从”截图工具”到”系统自动化驱动”
Peekaboo v2 的关键词是”截图”——AI Agent 可以调用它来截取屏幕内容,然后用视觉模型分析图片。但这只是”看”。
Peekaboo v3 的核心跃迁是 “Action-First”(动作优先):
1. 看(See)
高保真屏幕截图,支持应用级和全系统级截屏
读取 macOS 辅助功能树(Accessibility Tree),获取 UI 元素的精确坐标和层级
多显示器支持,跨屏识别和定位
2. 点(Click)
目标 UI 元素点击,模拟真实鼠标操作
支持弹窗、菜单、按钮、输入框等所有 macOS 原生控件
3. 输入(Type)
键盘输入自动化
快捷键(Hotkey)支持
4. 操作(Operate)
滚动(Scroll)
菜单导航(Menu bar interaction)
窗口管理(Window resize/move)
滑动手势(Swipe)
一句话总结
v2 让 AI “能看”,v3 让 AI “能动手”
四、核心技术详解
4.1 三引擎架构
Peekaboo v3 的技术架构可以概括为 三个引擎
屏幕引擎(Screen Engine)
通过 macOS 原生的 CoreGraphics API 捕获屏幕像素,支持按窗口、按应用、按显示器三种粒度截屏。v3 新增了基于 display 的截屏模式,解决了多显示器场景下坐标映射不准确的问题。
辅助功能引擎(Accessibility Engine)
读取 macOS 辅助功能树,获取每个 UI 元素的类型、位置、层级关系。这使得 Peekaboo 不仅能”看到像素”,还能”理解控件”——知道哪个是按钮、哪个是输入框、哪个是菜单项。
动作引擎(Action Engine)
通过 CGEvent 和 AXUIElement 实现真实的鼠标点击、键盘输入、窗口操作。v3 新增了滚动自动化和手势模拟,操作能力大幅扩展。
4.2 Agent 原生支持
v3 最大的亮点之一是 原生 Agent 流(Native Agent Flows):
# v2 方式:手动调用一个个工具peekaboo screenshot# → 分析图片 → 手动指定坐标点击 → 再截图验证# v3 方式:自然语言描述任务,Agent 自动链式执行peekaboo “打开系统设置,切换到网络面板,关闭 Wi-Fi”
Agent 会自动将自然语言任务拆解为多步骤操作,每一步完成后自动截图验证,再执行下一步。这个过程完全在本地完成。
4.3 MCP Server 模式
Peekaboo 同时作为 MCP(Model Context Protocol)Server 运行,可以被 Claude Desktop、Cursor、Claude Code 等任何支持 MCP 的客户端调用。
v3 的 MCP Server 做了精简:
不再托管/管理外部 MCP Server(专注自身功能)
更干净的 JSON 输出(CLI 和 MCP 统一格式)
可靠性升级,权限处理更安全
4.4 本地模型支持
Peekaboo 支持接入本地视觉模型进行 UI 分析,也支持通过远程模型 API 进行视觉问答。这意味着用户可以在”完全离线”和”云端高性能”之间自由选择。
五、技术架构对比
能力维度
v2(截图工具)
v3(系统驱动)
屏幕截图
支持
支持 + 多屏
UI 元素识别
辅助功能树
辅助功能树 + 视觉定位
鼠标点击
不支持
支持
键盘输入
不支持
支持
滚动操作
不支持
支持
菜单交互
不支持
支持
Agent 流
手动编排
原生自动编排
MCP Server
支持
精简优化版
本地模型
部分支持
完整支持
六、快速上手
6.1 安装
# 通过 Homebrew 安装brew install peekaboo# 或者直接运行(无需安装)npx peekaboo
6.2 基础使用
# 截取当前屏幕peekaboo screenshot# 截取指定应用窗口peekaboo screenshot –app “Safari”# 截图并进行视觉问答peekaboo screenshot –question “屏幕上有几个窗口?”# 使用 Agent 模式自动操作peekaboo “打开系统偏好设置”
6.3 作为 MCP Server 使用
在 Claude Desktop 或 Cursor 的配置中添加:
{  “mcpServers”: {    “peekaboo”: {      “command”: “npx”,      “args”: [“peekaboo”, “mcp”]    }  }}
添加后,Claude 就能直接调用 Peekaboo 进行屏幕截图和 GUI 操作。
6.4 在 OpenClaw 中使用
Peekaboo 是 OpenClaw 的内置技能(Skill),在 OpenClaw 配置中自动启用:
/peekaboo screenshot/peekaboo click “Submit”/peekaboo agent “关闭 Wi-Fi”
七、实际应用场景
AI 辅助测试
独立开发者在发布 macOS 应用前,用 Peekaboo 让 AI Agent 自动测试 UI——打开应用、点击各个按钮、验证弹窗和状态,比手动测试快数倍。Reddit 上已有开发者讨论用 Peekaboo + Claude Code 做”发布前自动化测试”。
自动化文档生成
结合 Obsidian MCP 和 Peekaboo,AI 可以自动截取项目界面、标注功能模块,生成图文并茂的项目文档。
跨 Agent 协作
Peekaboo v3 的多 Agent 流支持多个 AI 协作体在同一台 Mac 上并行工作——一个 Agent 负责开发,另一个负责测试,各自控制不同的窗口和应用。
日常自动化
批量文件重命名、系统设置调整、多窗口布局——任何原本需要人工点击的场景,Peekaboo 都能让 AI 代劳。
八、Peter Steinberger:一个人 + AI 的极致生产力
Peekaboo v3 的背后是 Peter Steinberger 本人——一个在 AI 时代将个人生产力推到极致的开发者。
数据说话
118 次提交/天,跨越 6 个并行项目
OpenClaw 项目在数月内突破 20 万 GitHub Stars,成为史上增长最快的开源项目之一
Peekaboo 是其工具链中的重要一环
“用 Peekaboo 构建 Peekaboo”
Peter 在 X 上发过一条推文:Building Peekaboo with Peekaboo。这意味着 v3 的开发过程中,Peekaboo 本身就被用来自动化测试和验证——用自己测试自己。
这种自举能力在计算机使用工具中是罕见的,也是 Peekaboo 质量的有力保证。
九、社区反响
Hacker News
HN 上关于 Peekaboo 的讨论集中在两个方向:
认可:终于有工具解决了 AI Agent “无法验证 UI 变化”的痛点
安全担忧:给 AI 完整 GUI 控制权是否安全?权限模型是否足够?
Reddit
r/ChatGPTCoding:将 Peekaboo 列为解决”Agent 能力缺口”的关键工具之一
r/ClaudeCode:在 54 个 MCP Server 安全扫描中纳入 Peekaboo,发现一个屏幕录制权限相关的 bug(已修复)
r/macapps:独立开发者社区用 Peekaboo 做 AI 辅助应用测试
中文社区
36 氪以 “OpenClaw 终于长出手和眼” 为题进行了报道,知乎和今日头条均有转载。国内开发者对”一日三更”的开发节奏表示震惊。
十、总结
Peekaboo v3 的意义不仅在于一个 macOS 工具的功能升级,而在于它代表了 AI Agent 发展方向的 关键一步
从”对话式 AI”到”操作式 AI”
当 AI 不再局限于聊天窗口,而是能够真正看到你的屏幕、点击你的按钮、操作你的窗口时,”AI 辅助”的内涵就被彻底扩展了。
正如 Peter 在 v3 发布推文下说的:这不只是一个截图工具的升级,这是一个系统自动化驱动的诞生。
对于每个 macOS 上的 AI 开发者来说,Peekaboo v3 值得你花十分钟试用——它可能会改变你对”AI 能做什么”的认知边界。
参考来源:
· Peekaboo GitHubhttps://github.com/steipete/Peekaboo
· Peter Steinberger X 推文https://x.com/steipete/status/2053114837698249190
· 36氪:Peter 一日三更发布 Peekaboo v3https://eu.36kr.com/en/p/3804769591893511
· Peekaboo MCP Server 文档https://mcpservers.org/servers/steipete/Peekaboo
· Reddit: We scanned 54 MCP servershttps://www.reddit.com/r/ClaudeCode/comments/1sx65ah/
· Skywork: Peekaboo – Giving AI Agents Vision on macOShttps://skywork.ai/skypage/en/peekaboo-ai-agents-vision-macos/1980891951588245504