Peekaboo这阵子,有了大动静。
大家都默认AI圈的风向是由OpenAI、Google这些大厂掌控的,一旦大厂发布新功能,其他家就会跟风。但Peter注意到的:真正决定体验的,往往不是模型的参数,而是工具的落地细节。Peekaboo发了正式版:v3.0.0和5月11日那天一口气推出的v3.1.0、v3.1.1、v3.1.2。Peter去补全OpenClaw缺失的屏幕识别、桌面操作,几乎是真的在实干。你会发现,它在截图,在识别窗口,在读取UI元素。但它真能跑起来。

更真正把桌面操作能力接进OpenClaw系统,或者嵌到本地工作流里调度。它其实不花哨。它火,不是大厂推出来的,而是做实际开发的人真的需要它。这也是为什么,现在做Agent的、做自动化的、做本地AI的,都开始不约而同地盯上视觉模型了。尤其在桌面自动化这个领域,有个老难题正在默默被解决——动态界面的适配问题。

AI的工具赛,走到2026年,吹概念的不少,真落地的没几个。但Peekaboo的出现,从2025年6月上线初版就不是靠PPT打牌的。它是开源的实干派,它不张扬,但每次更新都扎实落地。尤其是5月11日那天,一口气发了v3.1.0到v3.1.2全家桶,一步一个脚印,把截图、识别、点击、滚动、切换应用这些核心功能的路一个个踩实了。
你可以去问一个做自动化的工程师:要接桌面系统做操作,他默认会用什么方案?大概率,他会说:Peekaboo。甚至现在成了圈内共识——截图识别、元素定位,靠的就是视觉理解能力。为什么AI开发者开始拥抱这种方案?主要在解决三件事:容错,回溯,本地跑。别看这几个技术点,对做自动化的人来说,这比大模型的聊天能力有用多了。

Peter去年年末还在推beta 3跑测试,但他很实在,还听反馈和修bug。这一年下来,光迭代成本就不少。但接上了桌面操作能力之后,几个好处直接立马显现出来:本地跑:截图、识别,用来理解界面、规划操作、执行推理完全够用,数据压根不出本机。灵活选择:简单任务用轻量模型,复杂理解用大模型,自由搭配。速度:Peter自测,它的响应速度,比纯云端方案快得多。可控性:因为可以本地逻辑、本地前缀,可控度远远大于黑盒模型。

我在聊企业级Agent系统时,我跟客户说:关键在本地控制。说实话,我刚接触时,Peter团队很有诚意地开源了代码。演示不错,但一接实际对话流程,它就卡壳了。比如操作里有十步,它经常走到第三步就断了,不是权限插件问题,就是路径配置报错。后来接Peekaboo,它的稳定性,不但流程顺了,连成功率都高很多。你说这是不是魔法?不是,是工程水平扎实。
它底层视觉模型的底子,明显比传统脚本那批要更懂实际操作:识别更扎实,容错天然强,相关工具链多,版本迭代快、文档清楚,社区好维护。别说概念,就说实际要的功能:截图、读元素、点按钮、切应用、操作菜单,这些它都有了。有人说AI评测是玄学、榜单内卷,但Peekaboo真不能这么说。尤其是它的落地能力。比如那个社区案例:用Peekaboo在浏览器里驱动远程iOS模拟器,分析Little Vault欢迎页,识别Logo和按钮,点击创建Vault,一步步跑通全流程。

它不是当前评测榜单里的刷分王,但在实际Agent场景几乎全线压住了AppleScript和固定坐标方案,可谓开源工具里的务实冠军。它就不是靠参数卷出来的,而是靠工程硬怼出的口碑。现在AI工具已经过了吹概念的阶段,今天这个风口,一堆产品火过又凉了,真正的问题是:有没有靠谱好用的开源工具?你可能还在比模型多么强大,但我要告诉你:数据和隐私不会等你慢慢商量权限。我们现在要的,是一套真正能用的本地控制层。
在自动化圈,做Agent的团队已经默认它是基础配置;在隐私敏感的行业,公司和平台把本地控制嵌成了底线。好工具的最高境界就是让你感觉不到它的存在,Peekaboo正在朝这个方向死磕。
夜雨聆风