OpenClaw-Skill深度解读:用集体智能搜索技能树,让LLM Agent突破技能构建三重困境
当我们让大模型扮演”智能体”去完成真实世界的复杂任务时,一个关键问题浮出水面:如何让Agent像人类一样,把经验沉淀为可复用的”技能”?
最近,来自香港理工大学、南洋理工大学、清华大学等机构的联合团队提出了OpenClaw-Skill框架,核心创新是一个叫CSTS(Collective Skill Tree Search)的技能自动构建方法,以及配套的CSRL(Collective Skill Reinforcement Learning)强化学习策略。这项工作让我们离”Agent自主进化技能”的目标又近了一步。
— ✦ —
现有方法的三大痛点
在OpenClaw这样的真实交互环境中,Agent需要协调文件、工具、网页、执行反馈等多种资源,跨越多个步骤完成任务。虽然”技能”的概念已被广泛讨论(Anthropic最早提出),但现有的自动技能构建方法存在三个关键缺陷:
痛点一:技能碎片化
现有方法往往只生成零散的局部技能,缺乏对技能之间依赖关系和执行顺序的组织。就像给了一堆零件却没给说明书——Agent面对多步骤长链路任务时,不知道该先做什么、后做什么。
痛点二:技能多样性不足
多数方法仅依赖单一模型生成的轨迹来提炼技能。这意味着技能天然带着该模型的”偏好偏见”,覆盖的任务类型和推理策略非常有限。
痛点三:技能可迁移性差
从某个模型提炼出的技能,换到另一个模型上往往性能显著下降。技能和特定模型”绑死”了,缺乏跨模型的泛化能力。
— ✦ —
CSTS:用”集体智慧”构建技能树
CSTS的核心理念是:让多个模型集体参与技能的搜索、识别和组合,通过迭代构建结构化、多样化、可迁移的”技能树”。
具体来说,CSTS分为三个阶段:
1. 复杂任务分解
给定一个复杂任务,CSTS首先将其分解为有序的子任务序列——例如”定位文件→检查配置→构建命令→执行工具→诊断故障→验证输出”。每个子任务对应技能树的一层,树深度等于子任务数量。
2. 集体技能节点生成(CSN-Gen)
对每个子任务,CSN-Gen让多个不同模型分别尝试解决,各自产生执行轨迹。然后,一个共享的技能合成器将每条轨迹总结为一个候选技能节点。
为什么要多模型?因为不同模型可能走不同的解决路径、遇到不同的失败模式、发现不同的验证机会。这种多样性正是构建高质量技能的”原材料”。
3. 集体技能节点评估(CSN-Assess)
生成候选技能后,CSN-Assess从两个维度进行严格筛选:
集体质量评分:多个评判模型独立评估技能的清晰度、可执行性、完整性和相关性,聚合为稳健的质量分数。
集体可迁移性评分:将模型A提炼的技能交给模型B、C、D使用,看这个技能能否跨模型有效迁移。只有”通用型”技能才能获得高分。
两种分数相加得到最终评分,每个子任务选取得分最高的技能节点。所有选中节点按照任务分解顺序组成一条技能路径——这就是Agent完成该复杂任务的”操作手册”。
— ✦ —
CSRL:不只学一个技能,而是学会”选”技能
通过CSTS构建技能树和增强训练数据后,模型先经过监督微调(SFT)学习基本的程序化结构。但这还不够——当同一个子任务有多个候选技能时,模型需要学会哪个技能更有效。
CSRL的解决方案很巧妙:对每个子任务的所有候选技能,分别采样多条执行轨迹,然后在跨技能的集体组内计算相对优势(advantage),而非仅在单一技能内比较。
这意味着:每条轨迹不是和自己技能内的其他轨迹比,而是和所有技能产生的轨迹一起竞争。通过GRPO风格的裁剪目标优化,模型自然倾向于选择更有效的技能策略,同时避免被单一技能”困住”而产出同质化的结果。
— ✦ —
实验结果:全面超越基线
研究团队在两个具有挑战性的Agent基准上进行了评测:
QwenClawBench
在8个任务类别上,OpenClaw-Skill在所有测试的Qwen基座模型上都带来了稳定的整体提升:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
特别亮眼的是在长链路工具使用类别上的提升——OpenClaw-Skill 9B在SVM任务上从33.2飙升至70.9,在CS任务上从30.2跃升至78.4,增幅超过一倍。
值得注意的是,OpenClaw-Skill 9B(44.9)在整体分数上已经接近甚至超过了部分闭源模型,如GPT-5.4(56.7)、DeepSeek-V3.2-Thinking(50.7)等,展现出了强劲的竞争力。
PinchBench
在123任务扩展版本上,OpenClaw-Skill 9B将最佳成功率从61.1%提升至68.2%,平均成功率从47.1%提升至53.6%。小模型同样受益——OpenClaw-Skill Qwen3-4B将平均成功率从13.6%提升至20.8%。
消融实验
以Qwen3.5-9B为基座的消融实验清晰展示了每个组件的贡献:
• 基线模型:34.5 • +CSN-Gen(集体技能生成):39.8(+5.3) • +CSN-Assess(集体技能评估):42.8(+3.0) • +CSRL(集体技能强化学习):44.9(+2.1)
每个组件都在贡献增量,缺一不可。
— ✦ —
为什么这项工作重要?
OpenClaw-Skill的价值不仅在于实验数字,更在于其方法论上的三个关键启示:
技能需要结构,而非碎片。 技能树将孤立的操作编织成有序的执行路径,让Agent在长链路任务中”知道下一步做什么”。
技能需要集体,而非个体。 多模型参与的”集体智慧”打破了单一模型的偏好偏见,让技能更丰富、更通用。
技能需要可迁移,而非绑定。 明确评估技能的跨模型迁移能力,确保技能不是某个模型的”专利”,而是真正通用的程序化知识。
随着Agent在真实世界场景中的应用越来越广泛,如何高效地自动构建、维护和利用技能,将成为决定Agent能力上限的关键因素。OpenClaw-Skill为这一方向提供了一个系统性的解决方案。
— ✦ —
论文:OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models机构:香港理工大学 · 南洋理工大学 · 清华大学 · 皇家墨尔本理工 · 北京航空航天大学
夜雨聆风