速读 OpenClaw-RL: Train Any Agent Simply by Talking
link: https://github.com/Gen-Verse/OpenClaw-RL
智能体的每一次交互都会产生一个“下一状态信号(Next-state Signal)”,即紧随每个动作之后的物理反馈——无论是用户的回复、工具的输出,还是终端或 GUI 界面的状态变更。然而,现有的智能体强化学习(Agentic RL)系统均未能将其转化为实时的在线学习源。
我们提出了 OpenClaw-RL,这是一个基于简单洞察构建的框架:下一状态信号是普适的,策略可以同时从所有这些信号中学习。 无论是个人对话、终端执行、GUI 交互、软件工程(SWE)任务还是工具调用追踪,都不应被视为独立的训练问题。它们本质上都是可以在同一个闭环中训练同一策略的交互行为。
“下一状态信号”编码了两类信息:
评估性信号(Evaluative Signals):表明动作执行的效果,通过 PRM 判别器(Process Reward Model) 提取为标量奖励;
指导性信号(Directive Signals):指出动作应如何改进,通过**后验引导的在线策略蒸馏(Hindsight-Guided On-Policy Distillation, OPD)**进行回收。
我们从下一状态中提取文字线索,构建增强的教师上下文,并提供比标量奖励更丰富的 Token 级方向性优势监督。得益于异步设计,模型在提供实时服务的同时,PRM 判别器会对进行中的交互进行评估,训练器则同步更新策略,三者之间实现了零协调开销。
应用于个人智能体时,OpenClaw-RL 让智能体在被使用的过程中就能自我进化,从用户的追问、纠错和显性反馈中回收对话信号。应用于通用智能体时,同一套基础设施可支持终端、GUI、SWE 及工具调用场景下的可扩展强化学习,并进一步证明了过程奖励(Process Rewards)的实用价值。
夜雨聆风