OpenClaw-Skill深度解读:用集体智能搜索技能树,让LLM Agent突破技能构建三重困境-夜雨聆风

OpenClaw-Skill深度解读:用集体智能搜索技能树,让LLM Agent突破技能构建三重困境

当我们让大模型扮演”智能体”去完成真实世界的复杂任务时，一个关键问题浮出水面：如何让Agent像人类一样，把经验沉淀为可复用的”技能”？

最近，来自香港理工大学、南洋理工大学、清华大学等机构的联合团队提出了OpenClaw-Skill框架，核心创新是一个叫CSTS（Collective Skill Tree Search）的技能自动构建方法，以及配套的CSRL（Collective Skill Reinforcement Learning）强化学习策略。这项工作让我们离”Agent自主进化技能”的目标又近了一步。

— ✦ —

现有方法的三大痛点

在OpenClaw这样的真实交互环境中，Agent需要协调文件、工具、网页、执行反馈等多种资源，跨越多个步骤完成任务。虽然”技能”的概念已被广泛讨论（Anthropic最早提出），但现有的自动技能构建方法存在三个关键缺陷：

痛点一：技能碎片化

现有方法往往只生成零散的局部技能，缺乏对技能之间依赖关系和执行顺序的组织。就像给了一堆零件却没给说明书——Agent面对多步骤长链路任务时，不知道该先做什么、后做什么。

痛点二：技能多样性不足

多数方法仅依赖单一模型生成的轨迹来提炼技能。这意味着技能天然带着该模型的”偏好偏见”，覆盖的任务类型和推理策略非常有限。

痛点三：技能可迁移性差

从某个模型提炼出的技能，换到另一个模型上往往性能显著下降。技能和特定模型”绑死”了，缺乏跨模型的泛化能力。

— ✦ —

CSTS：用”集体智慧”构建技能树

CSTS的核心理念是：让多个模型集体参与技能的搜索、识别和组合，通过迭代构建结构化、多样化、可迁移的”技能树”。

具体来说，CSTS分为三个阶段：

1. 复杂任务分解

给定一个复杂任务，CSTS首先将其分解为有序的子任务序列——例如”定位文件→检查配置→构建命令→执行工具→诊断故障→验证输出”。每个子任务对应技能树的一层，树深度等于子任务数量。

2. 集体技能节点生成（CSN-Gen）

对每个子任务，CSN-Gen让多个不同模型分别尝试解决，各自产生执行轨迹。然后，一个共享的技能合成器将每条轨迹总结为一个候选技能节点。

为什么要多模型？因为不同模型可能走不同的解决路径、遇到不同的失败模式、发现不同的验证机会。这种多样性正是构建高质量技能的”原材料”。

3. 集体技能节点评估（CSN-Assess）

生成候选技能后，CSN-Assess从两个维度进行严格筛选：

集体质量评分：多个评判模型独立评估技能的清晰度、可执行性、完整性和相关性，聚合为稳健的质量分数。

集体可迁移性评分：将模型A提炼的技能交给模型B、C、D使用，看这个技能能否跨模型有效迁移。只有”通用型”技能才能获得高分。

两种分数相加得到最终评分，每个子任务选取得分最高的技能节点。所有选中节点按照任务分解顺序组成一条技能路径——这就是Agent完成该复杂任务的”操作手册”。

— ✦ —

CSRL：不只学一个技能，而是学会”选”技能

通过CSTS构建技能树和增强训练数据后，模型先经过监督微调（SFT）学习基本的程序化结构。但这还不够——当同一个子任务有多个候选技能时，模型需要学会哪个技能更有效。

CSRL的解决方案很巧妙：对每个子任务的所有候选技能，分别采样多条执行轨迹，然后在跨技能的集体组内计算相对优势（advantage），而非仅在单一技能内比较。

这意味着：每条轨迹不是和自己技能内的其他轨迹比，而是和所有技能产生的轨迹一起竞争。通过GRPO风格的裁剪目标优化，模型自然倾向于选择更有效的技能策略，同时避免被单一技能”困住”而产出同质化的结果。

— ✦ —

实验结果：全面超越基线

研究团队在两个具有挑战性的Agent基准上进行了评测：

QwenClawBench

在8个任务类别上，OpenClaw-Skill在所有测试的Qwen基座模型上都带来了稳定的整体提升：

模型	基线分数	OpenClaw-Skill	提升
Qwen3-4B	7.0	12.8	+5.8
Qwen3-8B	11.5	15.8	+4.3
Qwen3.5-4B	31.5	41.2	+9.7
Qwen3.5-9B	34.5	44.9	+10.4

特别亮眼的是在长链路工具使用类别上的提升——OpenClaw-Skill 9B在SVM任务上从33.2飙升至70.9，在CS任务上从30.2跃升至78.4，增幅超过一倍。

值得注意的是，OpenClaw-Skill 9B（44.9）在整体分数上已经接近甚至超过了部分闭源模型，如GPT-5.4（56.7）、DeepSeek-V3.2-Thinking（50.7）等，展现出了强劲的竞争力。

PinchBench

在123任务扩展版本上，OpenClaw-Skill 9B将最佳成功率从61.1%提升至68.2%，平均成功率从47.1%提升至53.6%。小模型同样受益——OpenClaw-Skill Qwen3-4B将平均成功率从13.6%提升至20.8%。

消融实验

以Qwen3.5-9B为基座的消融实验清晰展示了每个组件的贡献：

• 基线模型：34.5 • +CSN-Gen（集体技能生成）：39.8（+5.3） • +CSN-Assess（集体技能评估）：42.8（+3.0） • +CSRL（集体技能强化学习）：44.9（+2.1）

每个组件都在贡献增量，缺一不可。

— ✦ —

为什么这项工作重要？

OpenClaw-Skill的价值不仅在于实验数字，更在于其方法论上的三个关键启示：

技能需要结构，而非碎片。 技能树将孤立的操作编织成有序的执行路径，让Agent在长链路任务中”知道下一步做什么”。

技能需要集体，而非个体。 多模型参与的”集体智慧”打破了单一模型的偏好偏见，让技能更丰富、更通用。

技能需要可迁移，而非绑定。 明确评估技能的跨模型迁移能力，确保技能不是某个模型的”专利”，而是真正通用的程序化知识。

随着Agent在真实世界场景中的应用越来越广泛，如何高效地自动构建、维护和利用技能，将成为决定Agent能力上限的关键因素。OpenClaw-Skill为这一方向提供了一个系统性的解决方案。

— ✦ —

论文：OpenClaw-Skill: Collective Skill Tree Search for Agentic Large Language Models机构：香港理工大学 · 南洋理工大学 · 清华大学 · 皇家墨尔本理工 · 北京航空航天大学