乐于分享
好东西不私藏

OpenClaw-RL:通过用户交互数据来训练Agent

OpenClaw-RL:通过用户交互数据来训练Agent
这篇论文虽然叫做OpenClaw-RL,但其实是蹭OpenClaw的热度(虽然我也不懂为什么这么热)。本质上,所有存在用户反馈或者环境反馈的系统,都可以用本文的方法来进行模型训练。
简介

当前的Agent每次行动都会产生next-state signal例如:

  • 用户回复

  • 工具执行结果

  • GUI状态变化

  • 测试结果

现有系统只把这些信息当作下一步推理上下文(比如ReAct范式的Agent)没有用于训练。作者认为这些信号实际包含动作重要反馈信息目前系统浪费。

这些被浪费掉的信号又分为了两种:

  • 评估型信号(Evaluative signals)

Next-state signal评价动作好坏,比如用户重新提问->表示回答不好; 测试通过 ->表示成功。这种信号可以自然形成 process reward(过程奖励),但当前系统要么完全忽略,要么只在离线数据中使用。

  • 指令型信号(Directive signals)

Next-state signal不仅包含分,包含改进方向,比如用户说,你应该先搜索xx文件。不仅说明了,还给出了如何改正。但是问题是:(1)RL方法只能使用数值型的Reward,无法用这种文本信息;(2)而蒸馏方法依赖预先数据。因此交互产生信息没有利用

目前没有任何Agentic RL系统这些信号恢复线学习数据来源。所以,作者提出了OpenClaw-RL,该方法可以利用这两种反馈信号来训练个人和通用Agent的基座模型,从而提升Agent的效果。

方法
RL基建
OpenClaw-RL 提出一套统一强化学习基础设施,用于同时支持个人通用AgentRL训练。系统核心设计一个完全异步线独立构成:策略服务 (Policy Serving)环境执行 (Environment Hosting)奖励评估 (Reward Judging)以及策略训练 (Policy Training)
这些分别负责模型推理、环境交互、奖励计算参数更新,异步方式运行,彼此之间不存在阻塞依赖。例如,模型处理新的用户请求时,奖励模型可以同时评估之前交互结果,训练并行执行梯度更新。这种设计避免任务带来阻塞问题,使系统能够持续交互进行训练。
OpenClaw-RL支持5环境:
个人Agent的RL训练
作者使用PPO(这里不再赘述PPO,主要就优势的计算展开)来对Agent基座进行RL微调。至于为什么不用GRPO,这是因为在真实使用场景,不可能去rollout多个结果来计算相对reward。个人Agent的反馈信号主要是单条用户反馈,针对两种类型的反馈信号,作者分别提出了:
  • Binary RL(针对评估型信号)
  • OPD(针对指令型信号)
Binary RL方法
该方法将评估状态信号转换为二值过程奖励。模型响应 a_t状态s_{t+1}(用户的反馈)评估模型会根据用户的响应来评估模型输出:
PRM 根据状态信号(用户一轮回复工具执行结果)判断当前action是否推动任务进展:工具结果通常直接明确结论,用户回复可能包含满意不满信号;反馈明确时,模型结合任务场景进行估计。对于通用agent,PRM根据环境反馈推理任务是否取得进展,通过多次独立评估进行多数投票得到最终奖励。
OPD方法 (On-Policy Distillation)
该方法将指令状态信号转换为token级别的教师监督。Binary RL会将用户的反馈转换成二值信号,但用户真实反馈往往包含更多信息。例如:你应该先去看xx文件。这不仅说明回答错误的,指出:哪些token应该改变,应该如何改变。这些指令信息Binary奖励完全丢失。

作者观察到如果s_{t+1}(用户指令型反馈)提取提示信息添加原始prompt中,同一个模型产生不同的结果(不同token分布)。这个分布实际代表:模型在知道正确提示后本应生成的回到。因此,教师分布(增加用户提示后的结果)学生分布之间token差异可以作为方向优势信号

OPD的基本流程如下所示:
第一步:用户提示抽取
Judge模型(LLM)会根据状态信号s_{t+1}生成一个简短提示[HINT_START]...[HINT_END]执行m并行用。设计不会直接使用原始s_{t+1}作为提示,因为可能噪声大、冗长包含无关信息(例如用户回复同时包含纠正问题)。相反,judge s_{t+1}提炼1–简洁执行指令集中指出回答如何改进,从而模型提供质量定向训练信号。

Judge 生成 hint举例

[HINT]检查xx文件,结合文件信息

第二步:用户提示筛选

针对所有的提取出来的用户提示,选择长度超过10字符最长提示作为训练信号。若无有效提示,丢弃样本,保证训练信号质量。

第三步:教师提示构建

提取提示附加用户消息中,形成增强prompt模拟如果用户提前提供提示,模型如何响应。

原始的prompt:

帮我生成一个xx。

增强后的prompt:

帮我生成一个xx。User hint:检查xx文件,结合文件信息。

第四步:token级别优势计算

使用增强化后的prompt和原始模型,计算原始输出的token级别优势:
优势>0,教师(原模型知道正确的提示)认为token应该提高概率;优势<0,教师认为token合适。
作者提到Binary RL和OPD并非是互斥的,而是互补的。其中
Binary RL的特点:
  • 接受所有样本

  • 不需要 hint

  • 适用任何反馈信号

OPD的特点:

  • 用户明确

  • 详细错误信息

因此作者提议同时使用两种方法,Binary RL提供广覆盖梯度,OPD提供精度token修正。最终的加优势如下所示:

而对于通用Agent,除了使用过程奖励,还会结合结果奖励,结果奖励多个PRM评估得到过程奖励平均相加作为当前步骤最终奖励。

实验结果