OpenClaw的龙虾长出手脚了,这次是真能帮你点鼠标的那种-夜雨聆风

OpenClaw的龙虾长出手脚了,这次是真能帮你点鼠标的那种

OpenClaw的龙虾长出手脚了，这次是真能帮你点鼠标的那种

事情是这样的。

前两天刷到Peter又在疯狂更新Peekaboo，v3.1.0、v3.1.1、v3.1.2一口气连发三版，我寻思了一下，这人是不是被什么东西刺激到了。

去翻了翻时间线，确实有点意思。Peekaboo这个项目其实去年11月就在搞了，beta1到beta4磨了快半年，突然这两天跟开了狂暴模式一样疯狂大更新。

为啥急，后面再说。先说说这玩意到底干了什么让我觉得值得写一篇。

你用AI Agent的时候，有没有遇到过这种尴尬，你让Claude Code帮你干活，它确实能帮你打开浏览器、跑个脚本、查个文件，但一旦涉及到屏幕上更细的操作，比如点击那个按钮、把这段文字输到那个输入框、拖那个文件到那个文件夹，它就开始装瞎了。

最后那一步还是得你自己上手。

说真的，这种感觉太不爽了。就像你雇了个助手，什么都会说，但就是不干活，关键时刻还得你亲自操刀。

Peekaboo v3干的事就是把这道墙给凿穿了。

它给你的Mac装了一双眼睛和一双手。眼睛是像素级截图加上UI元素识别，手是点击、输入、快捷键、滚动、拖拽、切窗口、切桌面、戳Dock、点系统弹窗，一整套人类操作Mac会干的事。

我第一次跑通的时候真就愣住了。。。

你想想看，以前Agent是指手画脚的甲方，告诉你「你需要去点那个按钮」，现在是真能自己上手点。

先说「看」的能力。

Peekaboo能截全屏、截单个窗口、截菜单栏，支持Retina 2x缩放，这不是重点。重点是它能读取macOS上每个UI元素的位置、类型和label，等于它不只是看到了一张图，它看到了每个按钮在哪、每个输入框是什么、每个菜单项叫什么名字。

这跟普通截图有本质区别。普通截图是给AI一张照片让它猜，Peekaboo是给它一张带标注的地图让它找。

然后是「动」的能力。

这条命令能截屏并点击一个按钮，看到没，一条命令就搞定了，截屏、定位、点击三步合一。

peekaboo click --on "Reload this page" --snapshot "$SNAPSHOT"

它能做的事情太多了，点击、输入文字、按快捷键、滚动、拖拽、切换窗口、切换Space、操作Dock、处理系统弹窗，甚至还能直接设置UI元素的值和触发无障碍操作。

这不是脚本男孩的玩具，这是真刀真枪的桌面自动化。

但是，Peekaboo v3真正让我觉得牛逼的不是这些基础能力，而是两个杀手锏。

第一个，自然语言Agent模式。

你不用写什么复杂脚本，直接用大白话就行。

peekaboo agent "Open Notes and create a TODO list with three items"

一条自然语言指令，它自己截图、自己识别、自己点、自己输入，全程不需要你干预。我第一次跑这个的时候，看到备忘录自己弹出三个待办项，那种感觉太特么赤鸡了。

第二个，MCP server。

这才是真正改变游戏规则的设计。Peekaboo把所有能力打包成MCP协议，直接喂给Claude Code、Cursor、Codex这些AI编程工具。

什么意思呢，以前你在Cursor里写代码，UI出了bug，你得自己截图发给Cursor看。现在Cursor自己就能截图、自己看、自己改、自己再跑一遍验证，全程不用你插手。

这个设计太聪明了，不是再造一个AI工具，而是让现有的AI工具长出手来。

安装方式四条路，各取所需。

先贴一下项目地址，https://github.com/openclaw/Peekaboo，3890星，macOS原生Swift写的。

说真的，这项目的安装体验是少有的舒服，四条路，哪种习惯就用哪种。

第一条路，你用命令行搞自动化的。

Homebrew一行，别的啥都不用管。

brew install steipete/tap/peekaboo

装完验证一下

peekaboo --version

看到版本号就OK了。然后截个图试试

peekaboo image --mode screen --path ~/Desktop/test.png

桌面多出一张截图，就说明装好了。

第二条路，你用Claude Code、Cursor、Codex这些AI编程工具的。

MCP server模式，更香。因为装了之后，你的AI工具自己就有了截图和控制Mac的能力。

npx -y @steipete/peekaboo mcp

然后在你的AI工具里加一下MCP配置

{"mcpServers": {"peekaboo": {"command": "npx","args": ["-y", "@steipete/peekaboo"],"env": {"PEEKABOO_AI_PROVIDERS": "openai/gpt-5.5,anthropic/claude-opus-4-7"      }    }  }}

第三条路，你不想碰命令行。

去GitHub Releases直接下Mac桌面版app，拖进Applications就行。有可视化UI，截图反馈、权限管理全部图形化，不看终端一眼也能用。

第四条路，你是Swift开发者想嵌到自己App里。

Swift Package Manager直接引，GitHub Releases里也有Framework包。

对了，如果你是OpenClaw用户，更简单，直接装Skill就行。相当于给龙虾装了个操作Mac的插件，录屏和辅助功能权限走OpenClaw一次性过，不用再单独给Peekaboo开一遍。

说到这个，我之前最头疼的就是权限问题。macOS的屏幕录制和辅助功能权限，每个工具都要单独授权一遍，搞得我每次装新工具都要去系统设置里点半天。OpenClaw整合之后确实省心不少。

装好之后第一次用，系统会弹窗问你要屏幕录制和辅助功能权限，全点允许就行。这步躲不掉，macOS的安全机制，任何截屏和自动化工具都绕不过去。

回到开头那个问题，Peter为啥突然狂更新。

其实也很好理解。这两年AI操作电脑这条赛道卷疯了，Anthropic的Computer Use、OpenAI的Operator、各种browser-use工具，全在抢这个位置。开源Agent领域也是，各种Computer Use替代方案疯狂冒头。

Peter必须快。不快就被后来者追上了。

而且说实话，Peekaboo在macOS这个赛道上有一个天然优势，它是原生Swift写的，不是套个浏览器脚本那种半吊子方案，像素级截图、无障碍API调用、系统级弹窗处理，这些都是系统原生能力，不是什么hack出来的workaround。

这个护城河还是蛮深的。

我自己用了一周下来的感受是，Peekaboo目前最好的使用场景不是那种全自动「帮我做完一整个工作流」，而是半自动的「帮我在这个界面上点几下」这种小但频繁的操作。比如在某个App里反复点来点去填表单、在系统设置里改配置、在测试的时候反复跑UI操作验证。

全自动化当然也能做，agent模式就支持，但说实话目前的AI视觉理解还不够稳，复杂场景偶尔会翻车。简单的操作它很靠谱，复杂的还需要人盯着。

不过这已经是质的飞跃了。之前Agent是会说不会做，现在是会做但偶尔做不好，这完全是两个层面的事情。

从不会做到会做，是0到1。从做不好到做好，是1到100。Peekaboo v3完成的是0到1。

如果你也在用AI Agent做Mac上的事情，我真心建议装一个试试。不用全自动化，哪怕只是用它帮你点几下按钮、填几个输入框，那种AI真的在替你干活的感觉，跟以前那种只会说不会做的体验完全不一样。

龙虾这次是真的长出手脚了，不是摆设，是真能用的那种。

好了各位，看到这里，如果觉得有点收获，随手点个赞、在看、转发三连支持一下。想第一时间收到更新，加个星标⭐