OpenClaw-RL:通过用户交互数据来训练Agent

这篇论文虽然叫做OpenClaw-RL，但其实是蹭OpenClaw的热度（虽然我也不懂为什么这么热）。本质上，所有存在用户反馈或者环境反馈的系统，都可以用本文的方法来进行模型训练。

简介

当前的Agent在每次行动后都会产生next-state signal，例如：

用户回复
工具执行结果
GUI状态变化
测试结果

现有系统只把这些信息当作下一步推理的上下文（比如ReAct范式的Agent）而没有用于训练。作者认为这些信号实际上包含对上一动作的重要反馈信息，但目前被系统性地浪费。

这些被浪费掉的信号又分为了两种：

评估型信号（Evaluative signals）

Next-state signal会隐式评价上一动作的好坏，比如用户重新提问->表示回答不好; 测试通过 ->表示成功。这种信号可以自然形成 process reward（过程奖励），但当前系统要么完全忽略，要么只在离线数据中使用。

指令型信号（Directive signals）

Next-state signal不仅包含评分，还包含改进方向，比如用户说，你应该先搜索xx文件。不仅说明错了，还给出了如何改正。但是问题是：（1）RL方法只能使用数值型的Reward，无法用这种文本级纠错信息；（2）而蒸馏方法又依赖预先标注的数据集。因此实时交互产生的纠错信息没有被利用。

目前没有任何Agentic RL系统把这些信号恢复为实时在线学习的数据来源。所以，作者提出了OpenClaw-RL，该方法可以利用这两种反馈信号来训练个人和通用Agent的基座模型，从而提升Agent的效果。

方法

RL基建

OpenClaw-RL 提出了一套统一的强化学习基础设施，用于同时支持个人和通用Agent的RL训练。系统的核心设计是一个完全解耦的异步管线，由四个独立组件构成：策略服务 (Policy Serving)、环境执行 (Environment Hosting)、奖励评估 (Reward Judging)以及策略训练 (Policy Training)。

这些组件分别负责模型推理、环境交互、奖励计算和参数更新，并以异步方式运行，彼此之间不存在阻塞依赖。例如，在模型处理新的用户请求时，奖励模型可以同时评估之前的交互结果，而训练模块则并行执行梯度更新。这种设计避免了长任务带来的阻塞问题，使系统能够持续地从实时交互流中进行训练。

OpenClaw-RL支持5种环境:

个人Agent的RL训练

作者使用PPO（这里不再赘述PPO，主要就优势的计算展开）来对Agent基座进行RL微调。至于为什么不用GRPO，这是因为在真实使用场景，不可能去rollout多个结果来计算相对reward。个人Agent的反馈信号主要是单条用户反馈，针对两种类型的反馈信号，作者分别提出了：

Binary RL（针对评估型信号）
OPD（针对指令型信号）

Binary RL方法

该方法将评估型的下一状态信号转换为二值过程奖励。给定模型响应 a_t和下一状态s_{t+1}（用户的反馈），评估模型会根据用户的响应来评估模型输出：

PRM 根据下一状态信号（如用户的下一轮回复或工具执行结果）判断当前action是否推动了任务进展：工具结果通常能直接给出明确结论，而用户回复则可能包含满意或不满的信号；当反馈不明确时，模型会结合任务场景进行估计。对于通用agent，PRM会根据环境反馈推理任务是否取得进展，并通过多次独立评估后进行多数投票得到最终奖励。

OPD方法 (On-Policy Distillation)

该方法将指令型的下一状态信号转换为token级别的教师监督。Binary RL会将用户的反馈转换成二值信号，但用户的真实反馈往往包含更多信息。例如：你应该先去看xx文件。这不仅说明回答是错误的，还指出：哪些token应该改变，应该如何改变。这些指令性信息在Binary奖励中完全丢失。

作者观察到如果将从s_{t+1}（用户指令型反馈）中提取的提示信息添加到原始prompt中，同一个模型会产生不同的结果（不同的token分布）。这个分布实际上代表：模型在知道正确提示后本应生成的回到。因此，教师分布（增加用户提示后的结果）与学生分布之间的token级差异可以作为方向性优势信号。

OPD的基本流程如下所示：

第一步：用户提示抽取

Judge模型（LLM）会根据下一状态信号s_{t+1}生成一个简短提示[HINT_START]...[HINT_END]，并执行m次并行调用。设计上不会直接使用原始s_{t+1}作为提示，因为其可能噪声大、冗长或包含无关信息（例如用户回复同时包含纠正和新问题）。相反，judge 会将s_{t+1}提炼为1–3 句简洁可执行指令，集中指出回答应如何改进，从而为模型提供高质量的定向训练信号。

Judge 生成 hint举例

[HINT]检查xx文件，结合文件信息

第二步：用户提示筛选

针对所有的提取出来的用户提示，选择长度超过10个字符的最长提示作为训练信号。若无有效提示，则丢弃该样本，保证训练信号的高质量。

第三步：教师提示构建

将提取的提示附加到用户消息中，形成增强prompt，模拟如果用户提前提供提示，模型应如何响应。

原始的prompt：


帮我生成一个xx。

增强后的prompt：


帮我生成一个xx。User hint:检查xx文件，结合文件信息。

第四步：token级别优势计算

使用增强化后的prompt和原始模型，计算原始输出的token级别优势：

优势>0，教师（原模型知道正确的提示）认为该token应该提高概率；优势<0，教师认为该token不合适。

作者提到Binary RL和OPD并非是互斥的，而是互补的。其中

Binary RL的特点：

接受所有样本
不需要 hint
适用于任何反馈信号

OPD的特点：

用户明确纠错
详细错误信息

因此作者提议同时使用两种方法，Binary RL提供广覆盖梯度，OPD提供高精度token修正。最终的加权优势如下所示：

而对于通用Agent，除了使用过程奖励，还会结合结果奖励，将结果奖励与多个PRM评估得到的过程奖励取平均后相加，作为当前步骤的最终奖励。

实验结果