乐于分享
好东西不私藏

OpenClaw-Skill深度解读:用集体智能搜索技能树,让LLM Agent突破技能构建三重困境

OpenClaw-Skill深度解读:用集体智能搜索技能树,让LLM Agent突破技能构建三重困境

当我们让大模型扮演”智能体”去完成真实世界的复杂任务时,一个关键问题浮出水面:如何让Agent像人类一样,把经验沉淀为可复用的”技能”?

最近,来自香港理工大学、南洋理工大学、清华大学等机构的联合团队提出了OpenClaw-Skill框架,核心创新是一个叫CSTS(Collective Skill Tree Search)的技能自动构建方法,以及配套的CSRL(Collective Skill Reinforcement Learning)强化学习策略。这项工作让我们离”Agent自主进化技能”的目标又近了一步。

— ✦ —

现有方法的三大痛点

在OpenClaw这样的真实交互环境中,Agent需要协调文件、工具、网页、执行反馈等多种资源,跨越多个步骤完成任务。虽然”技能”的概念已被广泛讨论(Anthropic最早提出),但现有的自动技能构建方法存在三个关键缺陷:

痛点一:技能碎片化

现有方法往往只生成零散的局部技能,缺乏对技能之间依赖关系和执行顺序的组织。就像给了一堆零件却没给说明书——Agent面对多步骤长链路任务时,不知道该先做什么、后做什么。

痛点二:技能多样性不足

多数方法仅依赖单一模型生成的轨迹来提炼技能。这意味着技能天然带着该模型的”偏好偏见”,覆盖的任务类型和推理策略非常有限。

痛点三:技能可迁移性差

从某个模型提炼出的技能,换到另一个模型上往往性能显著下降。技能和特定模型”绑死”了,缺乏跨模型的泛化能力。

— ✦ —

CSTS:用”集体智慧”构建技能树

CSTS的核心理念是:让多个模型集体参与技能的搜索、识别和组合,通过迭代构建结构化、多样化、可迁移的”技能树”。

具体来说,CSTS分为三个阶段:

1. 复杂任务分解

给定一个复杂任务,CSTS首先将其分解为有序的子任务序列——例如”定位文件→检查配置→构建命令→执行工具→诊断故障→验证输出”。每个子任务对应技能树的一层,树深度等于子任务数量。

2. 集体技能节点生成(CSN-Gen)

对每个子任务,CSN-Gen让多个不同模型分别尝试解决,各自产生执行轨迹。然后,一个共享的技能合成器将每条轨迹总结为一个候选技能节点。

为什么要多模型?因为不同模型可能走不同的解决路径、遇到不同的失败模式、发现不同的验证机会。这种多样性正是构建高质量技能的”原材料”。

3. 集体技能节点评估(CSN-Assess)

生成候选技能后,CSN-Assess从两个维度进行严格筛选:

集体质量评分:多个评判模型独立评估技能的清晰度、可执行性、完整性和相关性,聚合为稳健的质量分数。

集体可迁移性评分:将模型A提炼的技能交给模型B、C、D使用,看这个技能能否跨模型有效迁移。只有”通用型”技能才能获得高分。

两种分数相加得到最终评分,每个子任务选取得分最高的技能节点。所有选中节点按照任务分解顺序组成一条技能路径——这就是Agent完成该复杂任务的”操作手册”。

— ✦ —

CSRL:不只学一个技能,而是学会”选”技能

通过CSTS构建技能树和增强训练数据后,模型先经过监督微调(SFT)学习基本的程序化结构。但这还不够——当同一个子任务有多个候选技能时,模型需要学会哪个技能更有效

CSRL的解决方案很巧妙:对每个子任务的所有候选技能,分别采样多条执行轨迹,然后在跨技能的集体组内计算相对优势(advantage),而非仅在单一技能内比较。

这意味着:每条轨迹不是和自己技能内的其他轨迹比,而是和所有技能产生的轨迹一起竞争。通过GRPO风格的裁剪目标优化,模型自然倾向于选择更有效的技能策略,同时避免被单一技能”困住”而产出同质化的结果。

— ✦ —

实验结果:全面超越基线

研究团队在两个具有挑战性的Agent基准上进行了评测:

QwenClawBench

在8个任务类别上,OpenClaw-Skill在所有测试的Qwen基座模型上都带来了稳定的整体提升

模型
基线分数
OpenClaw-Skill
提升
Qwen3-4B
7.0
12.8
+5.8
Qwen3-8B
11.5
15.8
+4.3
Qwen3.5-4B
31.5
41.2
+9.7
Qwen3.5-9B
34.5
44.9
+10.4

特别亮眼的是在长链路工具使用类别上的提升——OpenClaw-Skill 9B在SVM任务上从33.2飙升至70.9,在CS任务上从30.2跃升至78.4,增幅超过一倍。

值得注意的是,OpenClaw-Skill 9B(44.9)在整体分数上已经接近甚至超过了部分闭源模型,如GPT-5.4(56.7)、DeepSeek-V3.2-Thinking(50.7)等,展现出了强劲的竞争力。

PinchBench

在123任务扩展版本上,OpenClaw-Skill 9B将最佳成功率从61.1%提升至68.2%,平均成功率从47.1%提升至53.6%。小模型同样受益——OpenClaw-Skill Qwen3-4B将平均成功率从13.6%提升至20.8%。

消融实验

以Qwen3.5-9B为基座的消融实验清晰展示了每个组件的贡献:

 • 基线模型:34.5 • +CSN-Gen(集体技能生成):39.8(+5.3 • +CSN-Assess(集体技能评估):42.8(+3.0 • +CSRL(集体技能强化学习):44.9(+2.1) 

每个组件都在贡献增量,缺一不可。

— ✦ —

为什么这项工作重要?

OpenClaw-Skill的价值不仅在于实验数字,更在于其方法论上的三个关键启示:

技能需要结构,而非碎片。 技能树将孤立的操作编织成有序的执行路径,让Agent在长链路任务中”知道下一步做什么”。

技能需要集体,而非个体。 多模型参与的”集体智慧”打破了单一模型的偏好偏见,让技能更丰富、更通用。

技能需要可迁移,而非绑定。 明确评估技能的跨模型迁移能力,确保技能不是某个模型的”专利”,而是真正通用的程序化知识。

随着Agent在真实世界场景中的应用越来越广泛,如何高效地自动构建、维护和利用技能,将成为决定Agent能力上限的关键因素。OpenClaw-Skill为这一方向提供了一个系统性的解决方案。

— ✦ —

论文:OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models机构:香港理工大学 · 南洋理工大学 · 清华大学 · 皇家墨尔本理工 · 北京航空航天大学