OpenClaw-RL:“只要和 Agent 聊天”,它就能自己学会变强-夜雨聆风

OpenClaw-RL:“只要和 Agent 聊天”,它就能自己学会变强

如果说过去大家讨论 Agent 强化学习，更多还是围绕：

• 怎么做结果奖励
• 怎么做离线轨迹训练
• 怎么在某一种特定环境里跑 RL

那么 OpenClaw-RL 这篇论文真正想推进的一件事是：

Agent 在真实使用过程中，每走一步都会收到“下一状态反馈”，而这些反馈本身就是天然的在线学习信号。

也就是说，用户下一句话、工具执行结果、终端报错、GUI 状态变化、测试是否通过，这些原本只是“继续对话的上下文”，其实也可以直接变成 RL 的训练材料。

论文：OpenClaw-RL: Train Any Agent Simply by Talking

作者信息
Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang

论文来源
arXiv: 2603.10165v1
链接：https://arxiv.org/abs/2603.10165
首次公开时间：2026 年 3 月 10 日

项目地址
https://github.com/Gen-Verse/OpenClaw-RL

说明
本文内容基于原论文公开版本整理，配图与表格均直接截取自论文原文，仅作研究解读与学习交流使用，以尊重原作者著作权。

如果把整篇论文先压缩成一句话，我会这样概括：

OpenClaw-RL 想做的，不是给某一种 Agent 单独设计训练管线，而是构建一个统一框架，让 personal chat、terminal、GUI、SWE、tool-call 这些不同形态的交互，都能用“下一状态信号”持续在线训练同一个策略。

一、这篇论文到底想解决什么问题？

今天很多 Agent 系统其实已经处在“真实部署”阶段了。

• 有人拿它做个人助理
• 有人拿它改代码、跑终端
• 有人拿它操作 GUI
• 有人让它调用工具链完成复杂任务

但一个很现实的问题是：

绝大多数 Agent 在被使用时虽然不断接收反馈，却没有把这些反馈真正转成在线学习信号。

OpenClaw-RL 认为，这里面其实存在两类被浪费的信息：

1. 评估型信号被浪费了

比如：

• 用户重新追问，往往说明上一步回答不满意
• 测试通过，往往说明动作有效
• 编译报错、工具报错，往往说明动作有问题

这些都天然带有“上一步做得好不好”的含义。

2. 指令型信号也被浪费了

更关键的是，很多反馈不只是告诉你“错了”，还会告诉你“应该怎么改”。

比如用户说：

你应该先检查文件再编辑。

这类反馈其实已经隐含了纠错方向。
传统只依赖 scalar reward 的 RL，最多只能学到“上一动作不好”，却学不到“具体该往哪个方向改”。

OpenClaw-RL 的核心贡献，就是把这两类信号都回收起来：

• 评估型信号变成 process reward
• 指令型信号变成 token-level directional supervision

二、最重要的洞见：next-state signal 不是上下文，而是免费在线监督

论文最有价值的地方，在于它重新定义了 Agent 每一步之后收到的“下一状态”。

在传统系统里，下一状态通常只是：

• 下一轮 prompt 的一部分
• 环境继续执行的输入
• rollout 里的中间观测

但 OpenClaw-RL 认为，next-state signal 本身就是训练信号的容器。

它有几个很强的特征：

• 普适：几乎所有 Agent 任务里都会自然出现
• 免费：不需要额外人工标注
• 在线：随着真实使用不断产生
• 细粒度：不仅能给结果，还能给过程信息

Figure 1

原论文 Figure 1：OpenClaw-RL 的整体基础设施。左边是 personal/general 两类 agent 来源，中间是环境服务层，右边是 policy serving、PRM judging、training 三个异步组件。最关键的一点是，这套系统把“在线交互”直接接到了“在线训练”上。

所以这篇论文真正想表达的是：

Agent 不应该等到攒够一批离线数据再训练，而应该在真实交互中边服务、边打分、边更新。

三、OpenClaw-RL 的系统框架长什么样？

从工程实现上看，OpenClaw-RL 并不想绑定某一种 agent runtime，而是强调一个四段式异步结构：

1. Environment Server
2. PRM / Judge
3. Policy Training
4. Policy Serving

这四部分彼此解耦，异步运行。

也就是说：

• 模型还在服务新请求
• PRM 同时在给旧样本打分
• 训练器也在后台继续更新参数

它们之间不需要彼此等待。

这点非常重要，因为真实 Agent 场景里最容易卡住的问题就是：

• 不同任务时长差异很大
• 长 horizon rollout 很容易拖慢训练
• 一旦把训练和服务强耦合，就会影响线上可用性

OpenClaw-RL 给出的答案是：训练必须“零打断服务”地发生。

四、它到底统一了哪些 Agent 场景？

论文没有把“统一框架”停留在口号层面，而是明确列出了支持的环境类型：

Table 1

原论文 Table 1：OpenClaw-RL 支持的 agent 设置，包括 personal device、terminal、GUI、SWE 和 tool-call。对应的 next-state signal 也不一样，比如用户回复、stdout/stderr、视觉状态变化、测试结果和错误回溯等。

这张表非常关键，因为它说明作者不是只想做一个“聊天 Agent 的在线个性化器”，而是想把下面几类任务放进统一训练范式里：

• Personal agent：用户回复和工具结果
• Terminal agent：stdout / stderr / exit code
• GUI agent：界面状态变化和任务进展
• SWE agent：测试 verdict、diff、lint 输出
• Tool-call agent：函数返回值和错误栈

换句话说，只要环境能在动作之后返回下一状态，它就可能被纳入 OpenClaw-RL。

五、方法核心：把 next-state signal 拆成两种学习信号

这篇论文的方法部分其实很清楚，核心是两条线并行。

Figure 3

原论文 Figure 3：方法总览。左边是从对话/环境反馈里做 binary reward，中间是从反馈中抽取 hindsight hint 做 on-policy distillation，右边是 general agent 场景下的 step-wise reward。

1. Binary RL：把反馈转成好/坏分数

最直接的一条线，就是用 PRM judge 去看：

• 上一步动作好不好
• 下一状态是否说明它推动了任务完成

然后用多数投票得到 +1 / -1 / 0 这样的 reward。

这条线的优点是：

• 覆盖面大
• 几乎所有交互都能打上粗粒度信号
• 对个人聊天 Agent 和一般 Agent 都适用

但问题也很明显：

它只能告诉模型“好或不好”，无法说明“具体该怎么改”。

2. OPD：把反馈转成 token-level 方向监督

所以作者又加了一条更有意思的线：Hindsight-Guided On-Policy Distillation (OPD)。

它的做法可以概括成四步：

1. 从下一状态里抽取简洁的 hindsight hint
2. 过滤掉模糊、无效的 hint
3. 把 hint 拼回原 prompt，构造增强版 teacher context
4. 比较 teacher 分布和当前 student 分布，得到 token-level advantage

这里的关键创新是：

不是直接把用户下一句话原封不动拿来训练，而是先抽取出“可执行、可纠错”的核心提示，再转成教师分布。

这能避免原始 next-state 太长、太噪、混入新问题等问题。

3. 两条线为什么要同时用？

论文专门给了一个对比表：

Table 2

原论文 Table 2：Binary RL 提供序列级 evaluative signal，OPD 提供 token 级 directional signal。前者覆盖广，后者分辨率高。

作者的判断不是“Binary RL 和 OPD 二选一”，而是：

• Binary RL 负责“广覆盖”
• OPD 负责“高分辨率纠错”

因此最终采用了组合式 loss，把两种 advantage 加权合起来。

我觉得这是这篇论文里非常聪明的一点，因为它没有迷信单一训练信号，而是承认：

在线用户反馈既有粗粒度满意度，也有细粒度纠错线索。

六、personal agent 这条线最有意思的地方在哪里？

论文在 personal agent 场景里做了两个很接地气的模拟：

• 一个是“学生用 OpenClaw 做作业，但不想被看出 AI 味太重”
• 一个是“老师用 OpenClaw 批改作业，希望评价更具体、更友好”

这两个设定很妙，因为它们衡量的不是单纯正确率，而是个性化偏好是否被学到了。

Figure 2

原论文 Figure 2：论文用 student / teacher 两个模拟用户展示个性化效果。优化前的表达更模板化、AI 味更重；优化后风格明显更贴近用户偏好。

这意味着 OpenClaw-RL 不只是做“更强的通用 agent”，它也在试图证明：

用户真实对话产生的连续反馈，可以把一个 personal agent 快速调成更符合个人习惯的样子。

这点和传统“预先训练好一个统一助手，再靠 prompt 慢慢调”很不一样。
OpenClaw-RL 的逻辑是，用户本身就是持续产生训练信号的环境。

七、实验结果说明了什么？

1. 在 personal agent 上，组合方法明显最好

Table 3

原论文 Table 3：个性化优化结果。基线分数是 0.17，组合方法在 8 步更新后到 0.76，16 步更新后到 0.81。

这张表最值得记住的是三点：

• 单独 Binary RL 提升有限
• 单独 OPD 后劲更大，但起效更慢
• 组合方法最好，而且起效很快

论文给出的解释也很合理：

• Binary RL 样本密度高，但信息粗
• OPD 样本稀疏，但信息更细
• 两者叠加后，既有覆盖面，又有方向感

这其实非常符合直觉。
真实用户互动里，大多数时候你得到的是“满意/不满意”的弱反馈；只有少数时候，用户会给出非常明确的纠错建议。
OpenClaw-RL 的方法，正好把这两类信号都接住了。

2. 在通用 agent 场景里，框架也能工作

Figure 4

原论文 Figure 4：OpenClaw-RL 在 terminal、GUI、SWE、tool-call 四类环境里的训练曲线，说明这套框架不是只适合 personal chat。

这里作者重点强调的是“统一性”：

• terminal 用 Qwen3-8B
• GUI 用 Qwen3VL-8B-Thinking
• SWE 用 Qwen3-32B
• tool-call 用 Qwen3-4B-SFT

虽然不是同一个基础模型贯穿所有环境，但同一套基础设施与训练思路被复用了。

3. 过程奖励确实有价值

Table 4

原论文 Table 4：在 tool-call 和 GUI 场景中，把 outcome reward 和 process reward 结合起来，比只看 outcome reward 更强。

这个结果不算惊艳，但很重要。
因为它支持了论文最核心的判断：

长时程 agent 任务里，只在终点给 reward，信号太稀；如果每一步都能从 next-state 中回收 process reward，训练会更稳。

八、附录里的案例，其实很能说明论文想做什么

我觉得这篇论文一个很讨喜的地方，是它没有只给数字，还给了 before / after 的具体例子。

Appendix Example

原论文 Appendix B 示例：老师场景下，优化前反馈非常短、几乎没有教学性；优化后会更具体、更友好，也更贴近用户偏好。

这类例子说明 OpenClaw-RL 想优化的，不只是“任务成没成”，还包括：

• 风格是否自然
• 表达是否符合用户习惯
• 反馈是否更像用户真正想要的助手

这也是它和很多只追求 benchmark pass rate 的 Agent RL 工作不太一样的地方。

九、这篇论文最值得记住的贡献是什么？

如果把 OpenClaw-RL 的价值压缩成几条，我觉得主要有四点：

1. 它把在线交互正式变成训练闭环

不是离线收集完数据再训，而是边服务边学习。

2. 它提出了 next-state signal 的统一视角

不管是聊天、终端、GUI 还是 SWE，本质上都可以看成：

• 当前状态
• Agent 动作
• 下一状态反馈

3. 它把“反馈”拆成 evaluative 和 directive 两种信息

这比只做 outcome reward 更细，也比只做 preference optimization 更贴近真实 Agent 交互。

4. 它把个性化 personal agent 和 general agent RL 放进了一套框架里

这让“个人助理越用越懂你”和“通用 Agent 越跑越强”第一次在同一篇系统论文里被明确连起来。

十、这篇论文还有哪些不足？

如果从研究成熟度来看，OpenClaw-RL 当然很有启发性，但我觉得它也有几个非常明显的短板。

1. personal agent 实验更像模拟验证，不是真实用户线上 A/B

论文里的 student / teacher 场景很直观，但本质上还是由 LLM simulator 扮演用户。
这能说明方法“可能有效”，但还不能证明：

• 真实用户会不会持续给出足够稳定的 next-state feedback
• 真正线上分布下，个性化是否还能这么快起效
• 多轮长期使用后，会不会出现风格漂移或过拟合

2. judge 质量高度关键，但论文对 judge 误差传播分析不够

不管是 Binary RL 还是 OPD，本质上都很依赖 judge：

• 奖励打错了怎么办
• hint 抽偏了怎么办
• noisy next-state 被误当成 directive signal 怎么办

这类误差在在线训练里会被不断累积，论文目前更多展示了“能 work”，但还没有把“什么时候会失控”分析得足够透。

3. “统一框架”更多体现在基础设施层，统一策略层还不够彻底

论文确实把多种环境接进了一套 async framework，
但从实验看，不同场景还是用了不同模型、不同数据、不同设置。

所以它更像是：

• 统一训练基础设施
• 统一 next-state 学习思想

而不是已经证明了“一个 truly unified agent policy 可以无缝跨所有环境共训”。

4. 资源成本和部署复杂度不低

作者自己也承认，引入 PRM 会增加部署成本。
如果进一步考虑：

• 在线 serving
• PRM judging
• trainer 更新
• 多环境并发

那这套系统对工程团队的要求其实是很高的。
对于很多还在早期阶段的 Agent 产品来说，未必能立刻承担。

5. 隐私与安全问题只是被轻描淡写地带过

论文提到 personal agent 可以部署在个人设备上，并通过 confidential API key 接入。
但如果真的要从用户真实对话里持续学习，就会涉及：

• 哪些交互允许被训练
• 怎样做脱敏
• 如何区分主线 turn 和 side turn
• 如何避免把敏感信息写进训练样本

这些在实际产品里都不是“小问题”。

十一、未来可以怎么改造和创新？

如果沿着这篇论文继续往前推，我觉得至少有几条特别值得做。

1. 做“全局能力”与“个人偏好”的参数解耦

OpenClaw-RL 现在把 personal 与 general 都放进统一框架里，但未来可以更进一步：

• 全局参数学习通用能力
• 用户私有适配层学习个人风格

这样既能保留公共进步，也能避免不同用户偏好互相污染。

2. 给 next-state signal 加上置信度建模

不是所有反馈都一样可靠。

• 用户重新问一遍，可能是不满意
• 也可能只是想追问
• 错误日志里有些是关键因果，有些只是噪音

未来完全可以做：

• signal confidence estimation
• selective update
• uncertainty-aware weighting

这样会比现在的 majority vote 或简单过滤更稳。

3. 把 next-state 学习和 memory / skill evolution 联动起来

OpenClaw-RL 现在主要是 policy-level 更新。
但很多 Agent 失误，其实不只是参数问题，也可能是：

• 没有调到合适技能
• 没有写入正确记忆
• 没有检索到合适经验

未来如果把它和 skill evolution、memory retrieval、workflow repair 结合起来，效果可能会更强。

4. 做真正的多模态 next-state 建模

GUI 场景里，next-state 不只是文本，而是：

• 屏幕变化
• accessibility tree
• 操作轨迹

未来如果把视觉状态差分、布局变化、局部动作后果显式编码进去，
那 next-state signal 可能不只是 reward source，还会成为更强的 world-model supervision。

5. 做更严格的长期稳定性研究

持续在线训练最大的挑战从来不是“能不能涨分”，而是：

• 会不会遗忘旧能力
• 会不会 reward hack
• 会不会为了讨好用户而牺牲通用性
• 会不会在长时间闭环中逐渐漂移

所以未来特别值得看到：

• 长周期 online A/B
• forgetting analysis
• preference drift analysis
• safety fallback / rollback 机制

这些都会决定它能不能从“很有启发的研究系统”走向“真的可长期部署的 agent learning stack”。

十二、怎么理解 OpenClaw-RL 的位置？

如果站在更大的 Agent 研究脉络里看，我觉得 OpenClaw-RL 很像是在回答一个越来越重要的问题：

Agent 部署之后，能不能不依赖额外标注团队，而直接从每天真实发生的交互中持续变强？

它给出的答案不是最终解，但方向很清晰：

• 把反馈回收到训练里
• 把过程监督从环境里直接挖出来
• 把个性化与通用 agent RL 放到同一框架思考

这比单纯再刷一个 benchmark 分数，更接近“真正可成长的 Agent 系统”。

如果说很多 Agent 论文还在讨论“怎么把模型接进环境”，
那么 OpenClaw-RL 进一步讨论的是：

接进环境之后，环境本身能不能反过来成为持续训练模型的老师。

这正是它最有意思的地方。

由 CodeX 和爱折腾研究组的小七共同整理。