乐于分享
好东西不私藏

OpenClaw长出手和眼:Peekaboo v3让AI从会聊天变成会干活

OpenClaw长出手和眼:Peekaboo v3让AI从会聊天变成会干活

时刻爱生活    https://skaicn.cn

一、从副驾驶到驾驶座:AI终于能动手了

2026年5月11日,OpenClaw项目创始人Peter在社交媒体上宣布了一个消息:Peekaboo v3正式版发布。这不是一个普通的版本更新,而是一个被搁置数月后突然回归的项目,在发布当天就连推三个版本——v3.1.0、v3.1.1、v3.1.2。这种更新密度在开源项目中并不多见,通常只有两种情况:要么是出现了重大bug在紧急修复,要么是方向终于对齐,积累已久的东西开始往外倾泻。Peekaboo这次显然属于后者。

这个名字本身就有点俏皮。Peekaboo是”躲猫猫”的意思,电脑界面确实天天跟自动化躲猫猫——按钮躲在弹窗里,菜单躲在系统栏里,窗口一动坐标全变,焦点一跑输入落空。人类会凭直觉修正,AI只能靠一套更靠谱的眼睛和手。过去几个月,OpenClaw的热度像一锅刚烧开的水,先是咕嘟咕嘟冒泡,随后逐渐归于平稳。项目跑起来了,用户开始上手,讨论也从”这是什么”变成”它还能做什么”。这时,一个被搁在旁边的老问题重新浮上来:AI能接消息,能理解指令,能调用工具,下一步总得碰一碰真实世界。

桌面上的按钮、菜单、弹窗、输入框,才是多数工作的最后一公里。一个Agent如果只能在聊天框里给建议,多少像坐在副驾驶上指路,嘴上懂路,手上碰不到方向盘。用户叫来一个助手,最后助手递过来一张待办清单,这就尴尬了。Peekaboo就是在这个时候回来的,它要补上的正是这套眼睛和手,让OpenClaw从”会聊天”变成”会干活”。

📈 Peekaboo v3版本发布时间线

2025年6月:初版发布

2025年末:v3.0.0-beta 3

2026年5月:v3.0.0正式版

发布当天:一日三更(v3.1.0→v3.1.1→v3.1.2)

从去年6月的初版到今天的正式版,Peekaboo经历了一段曲折的历程。最初发布时,它还是一个相对简单的macOS自动化工具,能截图、能识别窗口、能模拟点击,但受限于当时模型的能力,实际应用场景有限。视觉模型能看图,但未必能稳定理解复杂界面;Computer-Use能操作,但经常像第一次摸触控板的人,动作大,心里虚,偶尔还会把浏览器当滑板。用户试用后,往往得出一个结论——想法很好,但还不够稳定。

于是,Peter将主要精力转向OpenClaw。这可以理解,OpenClaw本身就是一个更大的项目,要接消息平台,要做网关,要处理本地运行,要支撑Agent调度,还要让普通用户装得上、跑得稳、用得明白。Peekaboo暂时退到幕后,从v3.0.0-beta 3之后开始停更。很多人以为这个项目已经被放弃,直到最近两周,v3.0.0-beta 4先出来试水,紧接着正式版v3.0.0发布,然后是一日三更的狂飙节奏。

二、Peekaboo的技术内核:把桌面变成AI能理解的工作场域

对普通用户来说,Peekaboo最好理解成一套macOS自动化工具。它能截图,能识别窗口,能读UI元素,能找按钮,能点、能打字、能滚动、能切应用、能操作菜单。但它的价值远不止这些功能本身。传统脚本最怕环境变化——按钮位置换一下,窗口遮一下,弹窗突然出现,脚本就像踩空楼梯,啪一下摔进错误分支。Agent更麻烦,因为它要边看边想边操作,任何一步看错、点错、等错,后面都会一路歪下去。

Peekaboo的核心创新在于,它把桌面变成Agent能理解的工作场域。它不只是截一张图给模型看,还要把图里的控件、窗口、文本、按钮关系整理出来,形成可追踪、可复盘、可继续操作的现场记录。AI看到的不再只是一片像素,而是一张带结构的桌面地图。这就像给一个会读菜谱的人配上厨房灯、砧板和锅铲——没有这些东西,厨艺只能停在嘴上;加上这些东西,才有可能开火。

具体来说,Peekaboo的工作流程是这样的:首先,它会截取当前屏幕的截图,然后使用视觉模型分析这张截图,识别出其中的UI元素——按钮、输入框、菜单、文本、图标等。接着,它会把这些元素的位置、类型、状态记录下来,形成一个结构化的”屏幕状态”。当Agent需要操作时,Peekaboo会根据目标找到对应的UI元素,执行点击、输入、滚动等操作,然后等待界面变化,再截取新截图,继续下一轮操作。

这个过程听起来简单,但实现起来却面临诸多挑战。桌面环境的复杂性远超网页——每个应用的界面布局都不同,每个系统的配置路径都有差异,每个窗口的状态都可能随时变化。更麻烦的是,很多应用根本没有提供可编程的接口,只能通过视觉识别和模拟操作来实现自动化。这就要求Peekaboo不仅要能”看见”,还要能”理解”——理解不同应用的界面逻辑,理解用户的操作意图,理解操作失败后的恢复策略。

Peekaboo并非横空出世。它早在2026年6月就已上线初版,问题是过去的模型能力还没完全到位。最近的变化在于,模型视觉能力和Computer-Use能力都过了一个临界点。单项进步看起来只是多识别一点、多点准一点、多理解一步,叠起来之后,体验会发生质变。Agent不再只是偶尔能演示一下,而是开始接近可持续跑流程的状态。这时,底层自动化工具的价值被放大。 从架构设计来看,Peekaboo采用了模块化的设计思路。核心模块包括截图捕获器、UI元素识别器、操作执行器和状态管理器。截图捕获器负责在合适的时机截取屏幕图像;UI元素识别器使用视觉模型分析截图,提取出可交互的元素;操作执行器根据Agent的指令执行具体的点击、输入、滚动操作;状态管理器则负责记录操作历史,支持回滚和重试。这种模块化设计让Peekaboo具有良好的可扩展性,可以方便地支持新的应用场景和操作类型。

模型再聪明,也需要稳定输入和稳定执行。没有Peekaboo这样的桥,AI对桌面的理解就容易停在截图问答——它能说出屏幕上有什么,却不一定能可靠地完成下一步。

三、从浏览器到模拟器:Peekaboo的实际应用场景

社区里已经有人用Peekaboo在浏览器里驱动远程iOS模拟器。这段演示展示了Peekaboo的真正价值。流程大概是:先让Peekaboo分析一张移动应用截图,识别出它是Little Vault的欢迎页,页面上有应用Logo、标题、关于私人记忆的标语、创建Vault的主按钮、登录入口,以及右上角的语言选择器。随后注册这个屏幕,点击Create Your Vault,等待界面变化,再截图,继续进行探索。

这段演示有意思,因为它展示的并非单纯”AI看懂一张图”。真正关键的是后半段——看懂之后,它要把屏幕注册为一个状态,要选择目标,要执行点击,要等待反馈,要根据新截图继续走。这里面每一步都可能出错,每一步也都可以被记录下来。这才是Agent从玩具走向工具的分界线。Peekaboo把这些动作变得可观察、可复盘、可继续。对OpenClaw来说,这等于让远程指令和本地执行之间出现了一条可铺设的轨道。

更广泛的应用场景还在等待探索。想象一下:AI助手能自动处理网页后台,检查本地应用状态,运行模拟器测试,填写表单,点击配置项,查看报错截图并自动修复。这些过去需要人工一步步操作的任务,现在可以交给Agent来完成。比如,用户可以说”帮我把这些文件整理一下”,AI就能打开Finder,识别文件类型,按规则移动到相应文件夹,并报告完成情况。用户可以说”检查一下这个配置是否正确”,AI就能打开配置文件,读取内容,对照文档验证,指出问题所在。

在软件开发场景,Peekaboo的价值更加明显。开发者可以让AI自动运行测试,查看测试报告,定位失败的测试用例,打开相关代码文件,分析问题原因,甚至尝试修复。整个过程无需人工介入,AI可以自主完成从发现问题到解决问题的完整流程。在运维场景,AI可以监控服务器状态,当出现异常时自动登录服务器,检查日志,执行诊断命令,尝试自动修复,并将结果报告给运维人员。

这些场景的实现,需要的不只是Peekaboo一个工具,还需要OpenClaw的整体架构支撑。OpenClaw可以接收任务,Agent可以想出步骤,Peekaboo可以执行操作——三个环节合在一起,才接近普通人想象中的AI助手。过去,AI只能给建议,现在,AI可以真正动手。

四、从消息系统到操作系统:OpenClaw的战略演进

OpenClaw最初打动人的地方,是把Agent放进各种消息渠道。用户可以从Telegram、Slack、iMessage、WhatsApp一类入口发起任务。这个设计抓住了一个现实问题——人已经懒得为每个AI打开一个新网页,也不想在不同工具之间来回搬运上下文。最顺手的入口,往往就是聊天窗口。可聊天窗口只是入口,真正的工作场景常常在电脑里。

要处理一个网页后台,要检查一个本地应用,要跑一个模拟器,要填一个表单,要点一个配置项,要看一张报错截图。OpenClaw可以把任务接进来,Agent可以想出步骤,但如果没有能操作屏幕的本地层,它最终还是要把步骤发回给人,让人自己动手。这就导致了一个尴尬的局面:用户叫来一个助手,最后助手递过来一张待办清单,而不是直接把事办了。

Peekaboo接入之后,OpenClaw的角色开始变化。它不再只是多渠道消息网关,也不只是Agent的调度台,它有机会成为一个能在本机环境里真正办事的系统。一句话概括,OpenClaw管”谁来找我”“要做什么”“交给哪个Agent”,Peekaboo管”屏幕上有什么”“按钮在哪里”“这一刀该往哪儿落”。这两个问题合在一起,才接近普通人想象中的AI助手。

加上Peekaboo,OpenClaw才开始像值班的工程师,能登录机器、看屏幕、查问题、点配置、跑流程,让人愿意把事托付出去。这也是Peekaboo对OpenClaw的真正意义——它把OpenClaw从消息系统往操作系统的边缘推了一步。再往前走,OpenClaw就不只是AI的入口,而可能成为AI操作个人电脑和个人工作流的本地控制层。

这种演进的背后,是对用户需求的深刻理解。用户需要的不是一个更聪明的聊天机器人,而是一个能真正帮他们做事的助手。这个助手应该能理解用户的意图,能访问用户的工具,能操作用户的环境,能完成用户的工作。OpenClaw从一开始就瞄准了这个方向,Peekaboo补上的正是最后一块拼图。

五、工程琐碎背后的深层挑战:AI工具的落地难题

这几天的更新看起来有些工程琐碎,比如模型目录、工具schema、打包产物、版本标记、捕获路径、daemon调度。这些词放进发布公告里不一定吸睛,却正是Agent产品能不能跑起来的地基。AI工具最怕一种场景——演示时行云流水,用户一装就各种权限、路径、模型、窗口、截图、输入法、延迟问题接连冒头。最后用户也只能得出结论——未来确实来了,就是还没到自己电脑上。

Peekaboo的连续更新,在修的就是这类问题。它要让CLI、MCP、桌面应用、远程Agent、不同模型之间尽量减小摩擦。它要让一次截图、一次点击、一次窗口选择都更接近可预期。这里没有神迹,只有大量脏活。脏活做得越多,用户越少感知到它。好工具的最高境界往往是没存在感——按钮该点就点,窗口该找就找,任务该继续就继续。

但挑战依然存在。桌面环境的复杂性远超网页——每个应用的界面布局都不同,每个系统的配置路径都有差异,每个窗口的状态都可能随时变化。AI要在这个环境中稳定工作,需要的不仅是视觉识别能力,更是对上下文的理解、对异常的处理、对错误的恢复。Peekaboo目前解决了”看见”和”动手”的基础问题,但要让AI真正像人类一样灵活操作桌面,还有很长的路要走。

另一个潜在风险是安全性。让AI控制桌面意味着它有权限访问所有应用和文件,这在带来便利的同时也带来了安全隐患。恶意指令、误操作、数据泄露等问题都需要仔细权衡。Peekaboo需要建立完善的权限控制和审计机制,让用户能清楚地知道AI做了什么、能做什么、不能做什么。同时,还需要设计合理的错误恢复机制,当AI操作出错时,能够快速回滚或修正,避免造成更大的影响。

性能也是一个挑战。视觉识别和界面理解需要消耗大量计算资源,尤其是在处理复杂界面时,延迟可能会影响用户体验。Peekaboo需要在准确性和速度之间找到平衡,既要保证操作的正确性,又要保证响应的及时性。这可能需要优化模型架构,采用更高效的识别算法,或者在本地部署轻量级模型来减少延迟。

六、AI助手的未来:从对话到操作再到自主

OpenClaw过去解决的是连接问题——人从哪里发消息,消息怎么进来,Agent怎么处理,结果怎么回去。Peekaboo解决的是执行问题——Agent接到任务以后,能不能看到真实桌面,能不能找到可操作对象,能不能一步步推进。这两个问题合在一起,才接近普通人想象中的AI助手。

再往前走,OpenClaw就不只是AI的入口,而可能成为AI操作个人电脑和个人工作流的本地控制层。这意味着AI不再是被动响应问题的工具,而是能主动理解环境、执行任务、反馈结果的合作伙伴。用户可以说”帮我把这些文件整理一下”,AI就能打开Finder,识别文件类型,按规则移动到相应文件夹,并报告完成情况。用户可以说”检查一下这个配置是否正确”,AI就能打开配置文件,读取内容,对照文档验证,指出问题所在。

更进一步,AI可以开始主动学习用户的工作习惯,自动优化常见任务的执行流程,甚至预测用户的需求并提前准备。比如,AI发现用户每天早上都会打开邮件客户端、查看日程、浏览新闻,就可以在用户到达办公室前自动完成这些准备工作。AI发现用户经常在某个应用中重复相同的操作,就可以主动提出自动化建议,或者直接帮用户完成。

Peekaboo v3的发布,标志着OpenClaw从”会聊天”正式进入”会干活”的阶段。一日三更的更新节奏,显示出团队对这个方向的信心和投入。从去年的初版到今天的正式版,Peekaboo经历了模型能力提升、产品方向调整、技术架构优化的完整过程。现在,它终于准备好让AI在桌面上真正动手了。

未来,随着模型能力的进一步提升和自动化工具的持续优化,AI助手将越来越接近人类的工作方式。它们不仅能理解语言,还能理解界面;不仅能给出建议,还能执行操作;不仅能处理信息,还能改变世界。Peekaboo补上的这一环,可能是AI从对话助手走向自主Agent的关键一步。当AI能像人类一样看屏幕、点按钮、操作应用,它就不再只是一个工具,而是一个真正的合作伙伴。


更重要的是,Peekaboo的发布时机恰到好处。当前,AI行业正处于从”对话优先”向”操作优先”转型的关键节点。ChatGPT、Claude等大模型已经展示了强大的语言理解能力,但用户很快发现,光会说话还不够——他们需要AI能真正帮他们做事。AutoGPT、BabyAGI等自主Agent项目一度火爆,但很快暴露出执行层的不稳定问题。AI能生成计划,却无法可靠地执行计划;能给出步骤,却无法准确地完成步骤。

Peekaboo填补的正是这个空白。它不是要替代大模型,而是要为大模型提供一双可靠的手。当GPT-4或Claude做出决策时,Peekaboo负责把决策变成现实。当Agent规划出操作流程时,Peekaboo负责一步步执行。这种分工让AI的能力边界大大扩展——从”能想”到”能做”,从”会说”到”会干”。

从技术角度看,Peekaboo的成功也反映了计算机视觉和多模态AI的进步。过去,屏幕理解需要专门的OCR和图像识别技术,现在,大模型可以直接理解屏幕截图,识别其中的UI元素和文本内容。过去,自动化脚本需要精确定位元素坐标,现在,AI可以通过自然语言描述找到目标元素。这种变化不是渐进式的,而是质的飞跃——从”编程自动化”到”智能自动化”。

从用户角度看,Peekaboo降低自动化门槛的意义更加重大。传统自动化工具需要用户具备编程能力,了解应用内部结构,处理各种异常情况。Peekaboo让用户用自然语言描述需求,AI自动理解界面、执行操作、处理异常。这意味着,普通用户也能享受自动化的便利,而不需要成为程序员。这就是AI工具民主化的真正含义——让技术为每个人服务,而不是只有技术专家才能使用。

参考资料: 

– Peekaboo官网:https://peekaboo.sh 

– GitHub仓库:https://github.com/openclaw/Peekaboo 

– Peter社交媒体:https://x.com/steipete/status/2053114837698249190