让龙虾越用越聪明!普林斯顿大学为OpenClaw搞了个强化学习框架

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

你的龙虾助手能自己进化了。

每次交流后系统都会悄悄进化，变得更懂你的心思。

仅仅通过日常交流和使用就能实现自我迭代，将原本被丢弃的聊天记录转化为高价值的训练数据。

普林斯顿大学研究团队发布了全新的强化学习框架OpenClaw-RL。

该框架能够实时捕捉用户的反馈与环境运行结果，将隐性评价和显性纠正转化为指导智能体进化的信号，无缝衔接个人设备的定制化需求与云端的大规模通用任务训练。

挖掘日常互动的隐藏信号

当前部署的各类智能体无时无刻不在与真实世界产生海量互动。

智能体执行完每一个动作后都会接收到来自外部环境的下一个状态信号。

用户的一句回复或软件工具的一串输出结果构成了庞大而繁杂的信号流。

现有的系统普遍将后续产生的信息仅仅当作生成下一句回复的上下文背景。

系统读取完历史记录便随即抛之脑后。

研究团队发现日常丢弃的交互废料包含着极具价值的信息，并将反馈信号清晰地划分为两种截然不同的维度：评价性信号和指令性信号。

评价性信号就像是天然的打分器。

系统执行完动作后，外界的反应直接给出了成绩。

用户连续追问代表初次沟通失败。代码测试用例全部通过代表逻辑满分。程序弹出错误追踪日志等于直接给出了零分。

目前行业内习惯耗费巨资雇佣人类专家专门给模型输出结果打分。

日常交互中产生的满意度评价和对错判定其实每分每秒都在免费产生。

传统的训练框架完全无视实时产生的活数据，且只能依赖提前打包好的静态数据集进行离线训练。

指令性信号构成了更为珍贵的宝藏。

外界反馈除给出对错评判外，更直接指明了修改的具体方向。

用户在聊天框里敲下不该使用某某函数库，明确给出了针对词汇级别的修正指导。

详尽的报错日志同样包含着明确的逻辑修正线索。

常规的标量奖励机制只能给出一个干瘪的分数，完全无法吸收蕴含在文本中的方向性指导。

现有的知识蒸馏技术高度依赖提前人工筛选的问答配对数据。

研究人员打破了静态数据集的限制，直接从实时产生的数据流中提取出带有指导意义的文本线索。

独立解耦的异步运转机制

为了在不影响用户正常体验的前提下捕捉实时互动数据，研究团队打造了完全解耦的异步架构。

底层系统建立在开源的异步框架slime之上。

模型推理服务、环境运行节点、奖励评分系统以及策略训练引擎被拆分成四个互不干扰的独立循环模块。

融合打分与文本指导

框架通过两套互补的机制将形态各异的信号流转化为推动模型进化的策略梯度。

二元强化学习机制专门负责处理评价性信号。

系统利用多数投票机制构建出一个强大的评分裁判模型。给出一句回复以及随后的环境状态，裁判模型会评估动作质量并赋予1、负1或0的分值。

工具调用结果通常能推导出清晰的结论。用户回复需要模型深入揣摩其中蕴含的满意程度。裁判模型会发起多次独立的查询计算并采用多数票决定的方式输出最终分值。

下方的方法概览详细展示了对应流程。

二元强化学习将外界反馈的丰富内涵压缩成了一个数字。

后见之明引导的在线策略蒸馏（On-Policy Distillation）技术复原了信号中丢失的文本深度。

用户在聊天中指出错误细节时，系统会将外界状态信号转化为Token级别的监督指令。

系统在后台执行巧妙的提示词提取操作。

裁判模型一旦判定某次互动存在明确的纠正信息，便会从繁杂的用户回复中提炼出简洁的操作指南。

人类交流习惯将抱怨与新的提问混杂在一起。系统主动过滤杂音并萃取出专注指出缺陷的指令。

提取出的指令经过严格质量筛查只有长度超过10个字符且信息量丰富的提示才能进入下一环节。

在线策略蒸馏技术以牺牲样本数量为代价换取了指令维度上的极高精度。

经过提炼的纠正指令被拼接到上一轮用户输入的末尾构建出增强版的教师上下文。

策略模型重新审视自己原本的回答并计算出每一个Token的对数概率。

教师视角下的模型为极其准确的Token赋予正向优势值，从而引导其在未来的生成中提高出现频率。

不恰当的Token面临概率上的压制。定向指导超越了传统的标量打分机制。

相关机制的维度的对比如下表。

两套机制在实际运行中展现出极佳互补性。

二元强化学习照单全收所有被评分的交互轮次并提供广泛的梯度覆盖。

在线策略蒸馏专注于捕获包含明确指令的高质量交互，以提供高分辨率的微观修正。

系统将两者的优势值在数学层面上进行权重叠加。

对于执行周期极长的复杂任务系统引入了分步奖励机制。过程奖励模型根据实时产生的状态信号，为每一个操作步骤独立打分，从而保障长周期任务下的稳定收敛。

真实场景的性能验证

研究团队在统一的基础设施之上设计了两条平行的测试轨道。

个人智能体轨道聚焦于通过对话信号实现用户偏好的持续定制。

测试场景极具现实色彩，模拟了一位正在使用个人电脑写作业，且希望隐藏自己使用了人工智能辅助的学生。

助手生成的文风必须贴合人类自然表达习惯。另一个独立的大语言模型扮演挑剔的学生并不断抛出数学问题。

系统设定了极低的学习率，并规定每收集16个训练样本就触发一次后台权重更新。

另一场景中，挑剔的教师角色要求批改作业的评语必须具体且充满友善的温度。