OpenClaw开发者数周破万:AI Agent框架已不再是极客的玩具
我昨天让 Claude 帮我分析两个旧脚本,它自己去找了文件,比对了一遍,然后跟我说,之前的分析效率更高,建议回滚。整个过程我只说了一句话。三个月前这活儿我要开三个终端窗口,手动跑两遍测试,再自己决定用哪个版本。
一件是 OpenClaw 发布了,几天下载量过万,它背后那套 Anthropic 的操作抓取技术,能把屏幕上的东西变成结构化文本喂给 AI。另一件是谷歌悄悄推了个叫 Small Gadget Agent 的东西,让 Gemini 直接接管安卓手机——点外卖、看相册、帮你找文件,全程不用你自己动。
我先说 OpenClaw。装那个客户端的时候,我刚敲完命令,它就自动去 Anthropic 那边验证了一遍 API key。我本来想试试它能不能帮我查个日志文件,结果它先帮我确认了身份。然后它问我,要不要建个 Discord 频道,要不要把结果同步过去。我说不用,它还是自作主张给我建了一个。后来我看到有人在 GitHub Issues 里也抱怨这个,说第一次用就被强制建了个服务器。
让我想比较多的是那个榜单的事。SWE-bench 上 GPT-5 Pro 分数很高,但 Claude 在金融那个子榜 TAU-bench 上拿了顶尖的分。这个榜单测的不是谁写代码快,是让 AI 自己读一个 GitHub issue,自己理解问题,自己修代码,自己提 PR。我现在看这个榜单的心态跟半年前不太一样了。半年前我关注的是哪个模型写出来的 bug 少,现在我会想:谁的测试环境搭得更快,谁的结果装进标准化容器里更方便,谁的流程更容易被产品化。SWE-bench 本质上已经不只是技术比拼了,它更像是一个包装能力的竞赛。谁能把 AI 能力更快地装进一个标准格式里,谁的分数就高。
谷歌那个 Small Gadget Agent 让我想到另一层。它目前只在 Pixel 10 上测试,但那个方向是明确的——Gemini 不是帮你写代码的,是帮你操作手机的。以前用 Tasker 写个自动化脚本要调半天,现在直接跟 Gemini 说”帮我把明天的会议提醒设上”,它就自己在日历里建了。
OpenClaw 走的是另一条路:它面向开发者,想做的是一个开源的 AI Agent 平台,让任何人都能在上面搭自己的助手。它用的是 Anthropic 的计算机操作抓取技术,这个技术厉害的地方是,它能看见屏幕上有什么,然后把看见的东西翻译成 AI 能处理的文本。听起来简单,做起来很难——屏幕上的元素不是按代码逻辑排列的,是按设计师的审美排的,AI 要从一堆像素里判断哪个是按钮、哪个是输入框、哪个是文字,这个判断能力决定了 Agent 到底能不能真正替人操作电脑。
我现在用这些东西干的活已经跟半年前完全不同了。以前我写完代码会手动跑一遍测试,现在让 Claude 帮我跑,它跑完了还附带一个总结。以前我会花时间整理日志,现在让 AI 帮我筛选关键行。这些事情单独看都不大,但攒起来省了不少时间。OpenClaw 那个安装过程花了我大概十五分钟,其中有五分钟是在等它验证 API key,剩下十分钟在回答它的问题。
我一直在想一个问题:这些工具现在已经能替我做很多重复性的事了,那我省下来的时间,是去学更难的东西,还是说——我已经没有什么更难的事可做了?这个我暂时想不清楚。OpenClaw 的 GitHub 仓库里最近还有个 issue 在讨论,说能不能把它的操作抓取能力集成到浏览器插件里,这样就不用装客户端了。如果这件事做成了,我现在用的大部分工具可能都要换一遍。