AI 智能体的＂自学进化＂——Google SkillOS 论文深度解读

AI 智能体的"自学进化"——Google SkillOS 论文深度解读

核心要点：Google 最新论文提出 SkillOS 框架，让 LLM 智能体通过强化学习自主管理和优化技能库，实现真正的自我进化

Google 的最新论文提出了 SkillOS，一个让 LLM 智能体通过学习管理自己的"记忆"——以可复用技能的形式——来实现进化的框架。

核心流程：经验 → 记忆 → 技能

SkillOS 将技能管理视为一个操作系统，它处理和优化一个持久的 SkillRepo（技能仓库）。该方法最有趣的地方在于，技能是通过一个名为 Curator（策展人） 的可训练模块自主发现的。

三个你必须知道的核心概念

Agent Executor（执行器）——冻结的"演员"

这是一个从 SkillRepo 检索技能来解决任务的 LLM"演员"。它在训练期间是冻结的——我们不更新它的权重。它的性能提升完全依赖于获得更好的技能。

Skill Curator（技能策展人）——可训练的"大脑"

另一个 LLM，它观察执行器的轨迹并决定如何更新 SkillRepo。它可以执行三种操作：

Insert（插入）：添加新技能
Update（更新）：优化已有技能
Delete（删除）：移除冗余或无用的技能

SkillRepo（技能仓库）——知识的"文件系统"

技能以结构化的 Markdown 文件形式存储。每个技能包含名称、描述、代码片段和使用指南，使执行器能够轻松理解和应用。

什么是"技能"？

在最基本的层面上，技能就是延迟加载的提示词——一个包含标题和描述的 YAML 或 Markdown 文件：

---name: frontend-designdescription: 编写优秀 UI 代码的技术和指令---instructions: <关于前端模式的详细说明>

想象一个充满这种技能文件的目录（前端设计、编程模式、营销技巧等），每个技能都写在自己的 Markdown 文件中，包含头部信息（name 和 description）。

工作流程：当你的代理框架收到任务请求时，它会根据任务描述推断应该加载哪个技能，读取完整的技能文件，然后将全部指令加载到上下文中执行

SkillOS 论文的焦点是技能创建阶段——生成清晰且可操作的指令，以提高智能体在特定任务中的表现。Curator（策展人）LLM 负责执行维护 SkillRepo 的工作。

技能如何被"有机"发现

SkillOS 通过探索来学习技能和指令。大致流程是：LLM 智能体在环境中探索，然后将其经验提炼为指令和技能。

阶段 1：执行器运行

在创建任何技能之前，冻结的执行器首先要尝试解决一个任务：

通过 BM25 关键词匹配从 SkillRepo 中检索最相关的 top-k 技能
与环境进行多步交互，生成一条轨迹（观察和行动的序列）
轨迹结束后，一个 LLM 裁判判断任务是否成功完成，发出正确性信号
轨迹、正确性信号和已检索的技能，全部交给 Curator

阶段 2：Curator 输入

Curator 接收包含四项关键信息的结构化提示：

任务描述：智能体试图完成什么
已有技能：执行期间可用的相关技能列表
智能体轨迹：完整的分步追踪记录
结果：智能体成功还是失败

Curator 的角色是：将智能体任务执行的过去经验转化为可复用的通用技能。

阶段 3：Curator 输出

Curator 通过三个函数调用来更新 SkillRepo：

new_skill_insert：创建全新技能——当轨迹揭示了一个尚未被 SkillRepo 覆盖的可泛化策略时使用
skill_update：修改已有技能——支持重命名和内容替换
skill_delete：按名称移除技能——当技能冗余、误导或被取代时使用

技能格式包含强制性的 YAML 头部和 Markdown 正文，建议包含工作流、不适用的场景、示例和边界情况等章节。

RL 训练：如何优化技能质量

这里用到强化学习。Curator 的决策效果具有间接性和延迟性——写一个坏技能后，可能要等到第 5 个任务才能体现出来。

阶段 1：分组训练实例构建（最关键）

训练前，数据集需要预处理：

步骤 1：用 Gemini-2.5-Pro 对数据集中的每个任务进行类型标注
步骤 2：构建任务组，每个组内按难度排序形成自然课程

Google 的测试组大小为：ALFWorld 和 WebShop 环境 10 个任务一组，推理任务 5-12 个一组。分组结构确保早期任务中策划的技能可以在同一组的后续任务中直接测试。

阶段 2：技能创建循环

每个训练步骤中：采样一个任务组 → 初始化空 SkillRepo → 执行器运行并生成轨迹 → Curator 读取轨迹并调用工具更新仓库。

阶段 3：复合奖励

奖励由四个部分组成：

奖励组件	作用
任务结果奖励	早期策划的技能是否帮助后续任务成功
函数调用奖励	生成的函数调用是否语法有效并成功执行
压缩奖励	惩罚逐字复制轨迹，奖励真正压缩提炼的知识
内容质量奖励	LLM 裁判评估技能是否有意义、有用、忠实且可操作

阶段 4：GRPO 策略优化

每组采样 N=8 个独立 rollout，每个生成一个复合奖励。然后使用 GRPO 更新网络。

重要：GRPO 标准公式中的 KL 散度惩罚被丢弃，以鼓励策略探索

核心成果

1. 全面超越基线

在多轮智能体任务（ALFWorld、WebShop）和单轮推理任务（AIME 数学）上，SkillOS 同时超越了无记忆基线和强记忆基线。

2. Curator 可泛化到未见过的执行器

Curator 用 Qwen3-8B 作为执行器训练，但在测试时可以兼容完全不同的模型：

Qwen3-8B、Qwen3-32B（开源）
Gemini-2.5-Pro（前沿模型）

关键发现：直接用 Gemini-2.5-Pro 作为 Curator（零训练）效果反而不如经过 RL 训练的 SkillOS——强推理能力不保证好的策展能力。

3. 每个奖励组件都不可或缺

配置	性能
完整 SkillOS	61.2
移除内容质量奖励	58.6
移除压缩奖励	60.0
移除任务分组	57.3

最大的性能下降来自移除任务分组——这印证了从相关的顺序任务中学习是整个方法的核心洞见。

启示

SkillOS 向我们展示了一个令人兴奋的方向：智能体不仅是工具的使用者，也可以是工具（技能）的创造者。 通过 RL 训练的策展机制，智能体能够自主将经验提炼为可复用的技能，并在不同任务和不同模型之间泛化。

这对 AI 工程化的意义是深远的——我们正在从"人类编写所有指令"走向"智能体自主生成和优化指令"的时代。

文档来源：Skill Curation for Self-Evolving Agents

原始作者：AVB (@neural_avb)

本文由 AI 助手整理优化，欢迎关注、分享转载，请注明出处