乐于分享
好东西不私藏

OpenClaw长出手和眼!Peter正式发布Peekaboo v3,让AI接管桌面

OpenClaw长出手和眼!Peter正式发布Peekaboo v3,让AI接管桌面

欢迎来到【小杜讲AI】!这里会定期分享前沿AI技术解析与应用实践,带你深度读懂人工智能时代的核心变革。

过去几个月,OpenClaw 的热度就像一锅刚烧开的水,先是咕嘟冒泡,随后逐渐归于平稳。随着项目跑起来,大家讨论的焦点也从“这是什么”变成了“它还能做什么”。

这时候,一个被搁置已久的老问题重新浮现:AI 能接消息、能理解指令、能调用后台工具,但下一步,它总得去碰一碰真实的桌面世界。毕竟,桌面上的按钮、菜单、弹窗、输入框,才是大多数打工人工作流的“最后一公里”。

一个 AI Agent 如果只能在聊天框里给建议,多少就像是坐在副驾驶上指路——嘴上很懂路,手上却摸不到方向盘。

而今天,由开发者 Peter 带来的 Peekaboo v3 正式回归,并且迎来了“一日三更”的高频迭代。它的出现,彻底补上了 OpenClaw 最缺失的一环,让 AI 不仅会回消息,还能看屏幕、点按钮、操作真实的电脑桌面

从停更到“一日三更”的狂飙

关注该项目的朋友可能知道,Peekaboo 从去年年末发布 v3.0.0-beta3 之后,就进入了较长时间的停更状态。这主要是因为核心开发者 Peter 将主要精力转向了更底层的 OpenClaw 平台搭建上。

毕竟,OpenClaw 本身是一张巨大的网。它要接入 Telegram/Slack 等消息平台,要做网关,要处理本地运行,要支撑 Agent 的复杂调度。在这一阶段,Peekaboo 只能暂时退到幕后。

然而,就在最近两周,变化陡然发生。前天正式版 v3.0.0 宣告落地,紧接着就像打开了闸门,一天之内连续推出了 v3.1.0、v3.1.1 和 v3.1.2。

这种高密度的更新,往往意味着方向已经对齐,积累已久的技术势能开始向外倾泻。随着 OpenClaw 把多渠道、网关和 Agent 的外壳搭好之后,现在项目终于开始补最重要的一堂课:视觉交互与桌面执行

Peekaboo 到底在补什么?

对普通用户来说,你可以把 Peekaboo 简单理解为一套 AI 驱动的 macOS 自动化工具(Computer Use 框架)。

它能截图、能识别窗口、能读取 UI 元素、能找按钮;它还能模拟点击、打字、滚动、切换应用和操作菜单。

传统自动化脚本最怕的是什么?是环境的变化。按钮位置变了一下,或者屏幕弹出了一个更新遮挡,脚本就像踩空了楼梯,直接摔进错误分支。而 AI Agent 则不同,它需要“边看、边想、边操作”。如果第一步看错了或者点歪了,后面的逻辑就会全盘崩溃。

Peekaboo 的核心价值,就是把复杂的电脑桌面,转译成 AI Agent 能够理解的工作场域。它不只是生硬地截一张图扔给大模型,而是要把截图里的控件、窗口、文本、按钮层级结构整理出来,形成一张带有“结构化坐标”的桌面地图。

有了它,AI 看到的不再是一堆无序的像素点,而是可追踪、可复盘的“操作现场”。这就像是给一个会读菜谱的人,配备了专属的厨房灯、砧板和锅铲。

从“纸上谈兵”到真正落地的分水岭

其实 Peekaboo 并不是横空出世的项目,它早在去年 6 月就已上线了初版。当时的问题是,底层的大模型能力还没完全到位。视觉模型虽然能看图,但在理解复杂 UI 界面时经常出错;Computer Use 能力更是像第一次用触控板的新手一样,手忙脚乱。

而现在的转机在于,随着大模型视觉能力和工具调用(Tool-use)能力的双重进化,加上 Peekaboo 的底层桥接,体验迎来了质变。

OpenClaw 最初打动人的地方是它“多平台消息集成”的属性:你可以在微信、Slack、TG 里给 AI 派任务。但如果最后 AI 只能回复你一张“待办清单”让你自己去电脑上点,那未免太尴尬了。

有了 Peekaboo 的加持,OpenClaw 的角色发生了根本改变:

  • OpenClaw 负责脑力与调度:「谁来找我」「要做什么任务」「交给哪个专属 Agent」。
  • Peekaboo 负责视力与执行:「屏幕上有什么」「该点的按钮在坐标哪里」「怎么移动鼠标」。

目前社区里已经有人用 Peekaboo 在浏览器里成功驱动了远程的 iOS 模拟器。它可以识别欢迎页,自己注册账号,点击按钮,等待跳转,并根据新界面的反馈继续下一步。这里的每一步都可以被精准记录和复盘。

结语:让 AI 成为真正的系统操作者

这几天的疯狂更新中,Peter 处理了大量关于模型目录、UI 路径捕捉、后台守护进程调度等底层工程问题。这些琐碎的更新听起来不酷,但却是 AI Agent 真正落地的基石。

好工具的最高境界往往是“没有存在感”。按钮该点就点,窗口该找就找,流程自然顺滑。

**Peekaboo 把 OpenClaw 从一个“消息分发系统”推向了“桌面操作系统”的边缘。**它不仅是一个聊天的入口,更正在蜕变为可以操控个人电脑、接管个人工作流的本地 AI 控制层。而这,正是通往真正 AGI 办公助手最关键的一步。