乐于分享
好东西不私藏

OpenClaw 发展至今:从“会做事”到“能进化”,还差多远?

OpenClaw 发展至今:从“会做事”到“能进化”,还差多远?

arxiv:http://arxiv.org/abs/2604.17308

          http://arxiv.org/abs/2604.08523

benchmark:ClawBench — 真实浏览器代理基准测试

随着 Claude Code、OpenClaw、Gemini CLI 等命令行与浏览器智能体的兴起,AI 不再只是“对话工具”,而是开始真正代替人类操作电脑、填写表单、完成任务

但问题来了:OpenClaw 真的能像人一样,在日常网页中完成复杂任务,并从中持续进化吗?

两篇最新论文《SkillFlow》与《ClawBench》给出了目前为止最系统的回答。


✅ 优点:OpenClaw 已具备的能力

1. 真实的网页操作能力

  • 在《ClawBench》中,OpenClaw 类智能体可以:

    • 操作144个真实网站

    • 完成购买、预约、填表、申请工作等写操作

    • 处理动态内容、弹窗、登录流程

这比传统只能在静态页面中导航的智能体进了一大步。

2. 支持技能发现与复用

  • 在《SkillFlow》框架下,智能体可以:

    • 从一次任务中总结出可复用的技能

    • 将技能保存为 SKILL.md + 脚本

    • 在后续任务中调用、修正、丢弃技能

这意味着 OpenClaw 不再是“一次性执行器”,而是一个可进化的程序系统

3. 与真实环境的可控交互

  • 通过 Chrome 扩展 + CDP 拦截机制:

    • 智能体可以访问真实网站

    • 最终提交请求被拦截(不真正下单、不提交申请)

    • 保证安全性的同时不牺牲真实性


❌ 局限性:离“可靠助理”还有明显差距

1. 真实任务成功率仍然很低

  • 在《ClawBench》153个真实任务中:

    • 最强模型 Claude Sonnet 4.6 仅完成 33.3%

    • GPT-5.4 仅 6.5%

    • 两个模型甚至低于 5%

换句话说:70% 以上的日常网页任务,当前最强智能体也完成不了

clawbench中的部分任务如下:

2. 技能进化不稳定,甚至倒退

  • 在《SkillFlow》中:

    • Claude Opus 4.6 从 62.65% → 71.08%(✅ 正向进化)

    • Qwen-Coder 反而从 45.18% → 44.58%(❌ 退化)

技能不是越多越好,错误的技能会污染整个任务族

3. 技能膨胀,而非真正的抽象与压缩

  • 弱模型(如 Qwen、MiniMax):

    • 几乎为每个任务都生成一个“新技能”

    • 最终技能库膨胀,但无正向收益

它们更擅长“记录经验”,而不是“提炼原则”

4. 缺乏真正的任务间迁移能力

  • 大多数模型:

    • 在同一任务族内表现尚可

    • 一旦跨任务族(如从财务 → 医疗),技能几乎无法迁移

说明当前技能更多是任务特定的“脚本片段”,而不是真正的可迁移知识


🧠 核心结论:OpenClaw 的下一步是什么?

维度
当前状态
目标状态
任务完成率
33%(最佳)
>80%
技能进化
不稳定,易退化
稳定正向进化
技能抽象程度
任务级片段
跨任务族的可迁移模块
错误恢复
能识别并修复错误技能
真实网页适应性
较弱
强抗干扰、动态适应

OpenClaw 已经走出了“能做”的第一步,但离“可靠、可进化、可迁移”的通用助理,还有很长的路。


📌 写在最后

这两篇论文(SkillFlow & ClawBench)是目前最系统地揭示 OpenClaw 类智能体真实能力边界的工作:

  • 开发智能体工具链 → 必须关注技能膨胀与修复机制

  • 评估智能体能力 → 不要只看静态 benchmark,要上真实网页 + 写操作

  • 研究智能体进化 → 请记住:写出技能 ≠ 写出好技能

真正的智能体,不是会做事,而是能从做错的事中学会更好。