Peekaboo 是 OpenClaw 拿来看屏幕、点按钮的 Computer-Use 工具,也是 Agent 用来把桌面变成可操作场域的“眼”和“手”,一旦视觉模型在工程环境对执行稳定性有了刚需,Peekaboo 就成了那个谁都绕不开的底层拼图!比如在早期探索年代,社区彻底折腾脚本,凭着截图和瞎猜的笨办法,在浏览器自动化方面迅速碰壁于传统 RPA,磕磕绊绊成为了全球最大的翻车现场。但桌面环境的复杂多变让传统脚本很头疼,于是通过截图识别、UI 元素注册和现场记录结构化这一套视觉感知链对屏幕交互进行了重构,打通了窗口定位、按钮点击等老大难,导致传统脚本的脆皮路线彻底崩盘,至今都没翻身!

而到了 AI 工具密集落地的 21 世纪,Peter 也在工程层面快速出招,并且密集更新 Peekaboo,Peter 更狠的时候,一天连发三个版本迭代,就在正式版刚出炉的当口。所以,Peekaboo 又以一天三更的节奏来对底层工具的稳定性进行了死磕,虽然这导致社区调侃版本号“归零”,但 Peekaboo 不是炫技玩具,Peter 更不是在刷更新 KPI,做实事的工具绝不摆样子!
如今 v3 正式版发布后,在 OpenClaw 的消息渠道调度下,Peekaboo 依然走那条无存在感的实干路,不仅补齐了 Agent 的执行断腿,就连传统脚本驱动方案的机会都越来越少,即便是没有远程 iOS 模拟器和 Little Vault 这种复杂交互流程,Peekaboo 也拿下了桌面场域的结构化记录,操作复盘更是实现了可追溯!另外,Peekaboo 在模型目录适配和工具 schema 打磨方面也啃下了硬骨头,并且打通了 daemon 调度,实现了“换道超车”,可以说底层自动化工具的价值已经开始被完全重估了!

不仅如此,Peekaboo 就是那个在后台默默处理复杂问题的存在,逐渐开始渗透进每一台跑 Agent 的机器!要知道,OpenClaw 和 Peekaboo 组成完整执行闭环,主要是依靠消息网关调度多渠道接入和桌面截图结构化操作,一个是全球最大的 Agent 消息中转台,一个是全球最大的桌面交互执行器,光工程性修补就涉及捕获路径、版本标记、打包产物!不过对此 Peekaboo 也走了一条极度务实的路线,比如在模型对接方面,Peekaboo 主要是先适配最新模型目录,再打磨工具输出 schema;而在执行落地领域,权限修复、路径适配、daemon 调度稳定性等都在同步推进,争取消灭桌面环境里那些让脚本瞬间失效的突发弹窗和遮挡,而令人振奋的是在远程模拟器驱动领域 Peekaboo 如今也都跑通了完整链路!

首先是视觉交互方面,Peekaboo 已经完成了屏幕截图到控件识别的闭环,并在进行多窗口切换时的状态保持打磨,要知道,Peter 前段时间还顺手把 OpenClaw 的多渠道消息网关和 Peekaboo 的能力深度咬合,为 Agent 从“聊天的 AI”变成“办事的 AI”奠定了有力的工程基座。其次就是跨应用操控领域,作为把屏幕变成可编程场域的桥,Peekaboo 率先把每一步视觉状态和操作记录结构化,在去年 6 月就投下了足够扎实的底层能力用于桌面环境的无缝串联,并且在初版迭代、beta 版停更重启、正式版发布后一天三更这种极限交付节奏里建设了扎实的社区信任,保守估计真实跑起来的 Agent 会越来越多,一旦这些环境交互能力全部稳定发挥,那么 Peekaboo 将串联多渠道消息和桌面执行,成为全球第三大 Agent 执行底座!

而就在近日,Peekaboo 也交出了新阶段的成绩单,数据显示在远程 iOS 模拟器这条链路上 Peekaboo 的元素识别精度已经达到可追踪级别,同比增长,覆盖了数个实战应用场景,实现了一整套现场记录的可复盘闭环!此外,自 v3.0.0-beta4 以来,Peekaboo 累计接住的 Agent 执行需求已经渗透进了消息处理、屏幕操作、后台调度等方方面面,社区复现案例更是跑通了从“识别 Little Vault 欢迎页元素”到“点击 Create Your Vault 按钮并等待界面变化”的全流程。可以说,OpenClaw 和 Peekaboo 这对组合给了 Agent 无限想象的操作空间,也难怪那些还在执着于写死坐标脚本的老思路要被彻底淘汰,社区宁愿让 Agent 直接调用 Peekaboo 的视觉执行链路,就是要解放 Agent 在本机环境中的真实操作能力!
不过,即便是目前在工程细节上死磕到极致,Peekaboo 的发展潜力也远没见顶!因为根据数据显示,全球需要可靠桌面交互的 Agent 场景,占所有 AI 工具落地失败案例的比例为相当可观的一截,可见底层执行稳定性的缺口有多致命!而 Peekaboo 目前在调度层又解决了 daemon 持续运行和路径权限适配这些苦活累活,只要 Agent 接入量提上来了,就能满足社区极其庞大的自动化需求,然后像水银泻地一样渗透进各个操作系统环境,一起向真正的桌面级智能助理狂奔!

事实上,作为全球最大的 Agent 消息网关底座,Telegram、WhatsApp、Slack 等渠道都依赖于结构化屏幕交互来真正闭环,所以这两年 Peter 对 Peekaboo 进行模型适配和工程稳定性方面的打磨,这些底层投入同样极其关键,无论是视觉识别的准确度还是操作执行的可靠性都开始把传统脚本远远甩在身后!而随着 Agent 应用场景的不断扩散,固守截图问答思路的那些方案以后的日子会越来越难过,毕竟当 Peekaboo 都能悄无声息地在后台把复杂桌面问题处理干净的时候,谁还会去硬写那一碰就碎的脚本呢?因此连社区的共识都表示:一旦 Peekaboo 彻底把桌面交互的稳定性吃掉,那些还在让 AI 干看着截图却没法动手的尴尬方案将遭遇彻底的替代!
然而, Peter 也不会过于飘起来,毕竟目前 Peekaboo 还扎根在工程细活的打磨里,模型与工具交互的那层语义鸿沟还未真正消弭, Agent 依然要从 Peekaboo 得到稳定、结构化、可追溯的屏幕信息来输出每一步操作!所以 Peekaboo 要继续咬住那些藏在权限、路径、调度里的工程细节,走那条没有存在感的实干之路,坚持“帮 Agent 看见”和“帮 Agent 动手”,屏幕状态有啥 Agent 就处理啥!相信要不了多久, Peekaboo 就能让 Agent 实现那种感知不到任何底层摩擦力的桌面交互,到时候 Peekaboo 的价值就不再是一个工具那么简单,那是一种把桌面彻底变成 Agent 原生工作场域的穿透力!实打实的穿透力!
夜雨聆风