你踩过的每一个坑,都在帮别人铺路。当前AI智能体虽能调用技能完成复杂任务,但每个人都在孤军奋战——同样的错误千万人重复,却无人积累。今天介绍的SkillClaw框架,首次让LLM智能体学会“集体进化”:一个人的一次成功,能在一夜之间变成所有人的标配技能。
维度 | 信息 |
标题 | SkillClaw: Towards Collective Skill Evolution in Multi-User Agent Ecosystems |
作者 | Ziyu Ma , Shidong Yang |
机构 | DreamX Team |
论文地址 | https://arxiv.org/pdf/2604.08377 |
代码地址 | https://github.com/AMAP-ML/SkillClaw |
关键词 | LLM 代理,技能进化,多用户协作 |
发表时间 | 2026年4月9日 |
背景与问题
以OpenClaw为代表的大语言模型智能体已经能帮我们配置服务、调试API、编排工作流。这些能力依赖一个个封装了工具使用逻辑的技能。目前的技能生态却极其僵硬:用户从技能商店下载后,技能就再也不会变了。于是荒唐的场景天天上演——小王因为参数格式写错调了五轮才跑通工作流,小张第二天做同样的事还得把五轮踩坑重演一遍。同一个技能在不同用户手里反复遇到同样的失败模式,系统却像金鱼一样只有七秒记忆。现有方案各有短板:记忆方法把轨迹存下来以备检索,却难以提炼成可复用的行为改进;技能方法把经验压缩成结构化指令,却把技能库当成静态资源束之高阁。核心缺失的是一个将多用户交互痕迹转化为技能持续进化的闭环机制。SkillClaw正是冲着这个缺口来的。实提示提出集体技能进化框架:首次将跨用户、跨时间的交互轨迹作为第一信号,驱动技能持续改进。实现全自动闭环演化:从会话采集、证据聚合、智能进化到夜间验证与部署,全程无需人工介入。验证跨任务有效性:在WildClawBench上模拟多用户部署,Qwen3-Max在真实场景中取得显著提升,控制实验中单轮进化平均性能涨幅高达42.1%。你可以把SkillClaw想象成一座国际机场的行李分拣系统。每位旅客(用户)把行李(任务请求)交给值机柜台(本地智能体),系统通过传送带(工具调用)把行李送往对应航班。传统模式下,每个柜台各自为战,行李丢失(任务失败)了也没人知道原因。SkillClaw则给机场加装了一个中央调度塔台:
1. 轨迹收集器如同遍布机场的扫码枪,记录每一件行李的完整旅程——用户提示、智能体动作、工具反馈、最终结果,一条不落。2. 技能行李房维护着共享技能库,每个技能相当于一个标准集装箱,规定了某类行李(如“国际中转”)的标准处理流程。3. 进化调度引擎夜间汇总所有轨迹,将成功和失败的行程按所涉技能分组。4. 验证与同步如同夜班测试传送带,候选新技能在真实环境跑一遍,只有表现优于旧版的才被部署到所有柜台。第二天清晨,每一位旅客用的都是昨晚迭代后的最优技能。该图清晰呈现了“多用户交互 → 会话采集 → 技能进化 → 技能同步”的完整闭环。左侧独立智能体与真实环境交互,中间轨迹聚合形成共享证据池,右侧进化器分析每个技能的成败记录并输出更新,最终回写技能仓库。图最值得注意的信息是:成功轨迹和失败轨迹被平等对待——前者固化已验证的行为,后者定位待修正的短板,两者共同构成进化的双引擎。社交交互类技能的瓶颈不在功能缺失,而在流程可执行性。Day 1接受的更新是把一条模糊描述变成严格的步骤清单,仅此一项改动就让技能池质量跃升。后续的会议协调与可行性分析更新虽被拒绝,但并非它们不优——只是没能超越Day 1已经建立的高基线。实验模拟8位并发用户,进行6天(6轮)昼夜循环:白天用户完成任务产生轨迹,夜间系统聚合证据、生成候选技能并验证。只有验证阶段胜出的技能才会进入次日的部署池。
从四类代表性任务的表现看,进化路径高度差异化:社交类重流程可执行性,检索类重输入可靠性与规划分层,创意合成类重多模态流水线组织,安全对齐类重环境鲁棒与回退策略。并非所有候选更新都能通过夜间验证——这正是SkillClaw稳健性的来源:宁可保持旧版的高基线,也不引入未经验证的变动。在受控实验中,SkillClaw Lite单轮进化就将平均成功率从30.4%拉至72.5%,尤其在“缺失环境特定步骤”类任务上效果炸裂。
SkillClaw完成了一次观念跃迁:技能不再是静态的说明书,而是像有机体一样在真实使用中不断演化的活系统。它证明多用户智能体生态中存在一条尚未开采的进化通道——每个人的每一次对话,都能成为推动系统前进的燃料。- 当技能之间开始互相引用、组合成更复杂的工作流时,如何让进化引擎同时优化技能依赖图而不仅是单个节点?
- 如果某些用户刻意提供恶意反馈,验证机制能否扛住“投毒”?