OpenClaw-RL:当强化学习长出“龙虾触角”

OpenClaw-RL: Train Any Agent Simply by Talking

论文标题: OpenClaw-RL: Train Any Agent Simply by Talking
作者: Yinjie Wang*, Xuyang Chen*, Xiaolong Jin*, Mengdi Wang†, Ling Yang†
机构: Princeton University, Peking University
Arxiv: 2603.10165
代码: https://github.com/Gen-Verse/OpenClaw-RL

一句话总结

每次 Agent 交互都会产生下一状态信号（用户回复、工具输出、终端/GUI 状态变化），但现有系统全部将其丢弃；OpenClaw-RL 将这些「废弃信号」同时恢复为评价性标量奖励和指令性 token 级优势，在统一的异步架构下让 Agent "边用边学"。

核心洞察：下一状态信号的两类浪费

Agent 每执行一个动作，环境就返回下一状态：用户回复、工具执行结果、GUI 状态转换、测试结论等。现有系统仅将其作为下一步的上下文，从未将其作为在线学习信号进行利用。这构成了两类可回收的浪费：

浪费 1 — 评价性信号 (Evaluative Signals)

下一状态隐式地对前一个动作打分：

用户重新提问 → 不满意
测试通过 → 成功
错误日志 → 失败

这是天然的过程奖励，无需额外标注流水线，但 PRM 迄今几乎只在数学推理中被研究。

浪费 2 — 指令性信号 (Directive Signals)

下一状态往往携带方向性信息：用户说"你应该先检查文件再编辑"，不仅说明回答错了，还指出了哪些 token 该改、怎么改。现有 RLVR 方法使用标量奖励，无法将这类信息转化为方向性策略梯度。

Binary RL：PRM Judge 多数投票机制

PRM 评判构建

给定响应和下一状态，Judge 模型评估的质量：

工具调用结果通常有明确结论
用户回复可能包含满意/不满意信号
无明确反应时，模型基于场景做估计

运行次独立查询，取多数投票：

RL 训练目标

直接使用作为优势函数，采用非对称 PPO 裁剪替代目标：

其中，，。由于是实时对话场景，没有 GRPO 中的组结构可用于标准化。

Hindsight-Guided On-Policy Distillation (OPD)：四步详解

OPD 的核心思想：Binary RL 将的全部信息压缩为单个标量，而用户说"你应该先检查文件"传达的远不止"回答错了"——它指出了哪些 token 应该不同以及如何改变。OPD 通过将下一状态信号转化为 token 级训练信号来恢复这些信息。

Step 1: Hindsight Hint 提取

如果 score = +1，Judge 在 [HINT_START]...[HINT_END]中生成简洁的提示。运行次并行 Judge 调用。

关键设计：不直接使用作为 hint。原始下一状态信号往往嘈杂、冗长或包含无关信息，Judge 模型将其蒸馏为简洁、可操作的指令（1-3 句），聚焦于回应应如何不同。

Step 2: Hint 选择与质量过滤

在正向投票且 hint 长度 > 10 字符的样本中，选择最长的（最有信息量的）。若无有效 hint，直接丢弃该样本。OPD 用样本数量换取信号质量。

Step 3: 增强教师构建

将 hint 附加到最后一条用户消息，创建增强提示：

这相当于模型"提前看到"用户的纠正建议。

Step 4: Token 级优势计算

在下用原始响应作为强制输入查询策略模型，计算每个 token 的 log 概率。Token 级 OPD 优势：

：教师（知道 hint）给此 token 更高概率 → 学生应增强
：教师认为此 token 不合适 → 学生应抑制

与标量优势不同，这提供了per-token 方向性指导：同一响应中，有些 token 被加强，有些被压制。

Combined Loss：融合两种方法的优势

Binary RL 和 OPD 互补而非竞争：

维度	Binary RL	OPD	Combined
信号类型	评价性 (好/坏)	方向性	评价 + 方向
优势函数	序列级标量	Token 级方向性	混合
覆盖度	所有评分样本	仅 hint 被接受的样本	全部
信号丰富度	1 标量/样本	1 值/token	1 值/token

联合优势函数：

默认。

异步架构：四个解耦组件

OpenClaw-RL 的核心架构原则是完全解耦：策略服务、环境交互、PRM 评判、策略训练作为四个完全独立的异步循环运行，彼此无阻塞依赖。

Policy Serving → Environment → Reward Judging → Policy Training
   (SGLang)      (HTTP/API)    (SGLang/API)      (Megatron)

模型服务下一个用户请求的同时，PRM 评判上一个响应，训练器执行梯度更新
个人 Agent：用户设备通过保密 API 连接，无需修改框架，权重平滑更新不中断推理
通用 Agent：云端托管环境，支持大规模并行化

Session-Aware 环境服务

每个 API 请求分为两类：

Main-line turn：Agent 主要响应和工具执行结果，构成可训练样本
Side turn：辅助查询、内存整理、环境转换，不产生训练数据

支持的 Agent 设置

设置	环境	下一状态信号	Horizon
OpenClaw	个人设备	用户回复/工具调用结果	长
Terminal	Shell 执行沙盒	stdout/stderr, exit code	长
GUI	屏幕状态 + 可达性树	视觉状态差异, 任务进度	长
SWE	代码仓库 + 测试套件	测试结果, diff, lint 输出	长
Tool-call	API/函数执行	返回值, 错误追踪	中等

实验结果

个人 Agent 结果 (Student 场景)

模拟一个使用 OpenClaw 完成作业的学生（不想被发现使用 AI）。策略模型为 Qwen3-4B。

方法	Updated 8 steps	Updated 16 steps
Binary RL	0.25	0.23
OPD	0.25	0.72
Combined	0.76	0.81

基准分数为 0.17。Combined 方法在仅 36 次交互后实现显著提升（0.17 → 0.81）。OPD 因训练样本稀疏需要更多交互才显效；Binary RL 单独使用仅提供有限改进；两者结合达到最优。

Teacher 场景（批改作业，希望评语具体且友好）中，仅 24 次批改交互后即可看到明显改善。

通用 Agent 结果

跨 Terminal、GUI、SWE、Tool-call 四种设置进行实验，使用大规模环境并行化（Terminal: 128, GUI/SWE: 64, Tool-call: 32）。

整合 Outcome + Process Rewards 的效果：

设置	Integrated	Outcome only
Tool-call	0.30	0.17
GUI	0.33	0.31

Process Reward 对长 horizon 任务至关重要，整合后一致优于仅使用 outcome reward。

与现有方法的对比

方法	信号来源	在线/离线	信号粒度	多环境
RLHF	人类标量偏好	离线	序列级	否
DPO	成对偏好	离线	序列级	否
GRPO	可验证结果	离线批次	序列级	否
标准蒸馏	外部强教师	离线	Token 级	否
OpenClaw-RL	下一状态信号	在线	Token 级	是

OpenClaw-RL 的根本不同在于：(1) 从在线交互中实时回收学习信号，(2) 通过 OPD 提供 token 级方向性指导，(3) 统一支持异构多环境流。

总结

核心贡献：识别并回收 Agent 交互中被浪费的下一状态信号
两种互补方法：Binary RL（评价信号 → 标量奖励）+ OPD（指令信号 → token 级优势）
统一异步架构：四组件完全解耦，零协调开销
实证验证：个人 Agent（0.17→0.81）和通用 Agent（Terminal/GUI/SWE/Tool-call）均取得显著提升
极少交互即见效：Student 36 次、Teacher 24 次交互即可观察到明显改善

**转载请联系本公众号获得授权**

**关注各平台：AI 大排档**