华人团队开源AI养虾神器,开启AI边用边学新时代

点击蓝字，关注我们

AI热潮的起伏

不久前，一款叫OpenClaw的红色龙虾形象AI在社交平台爆火，引发‘云养’热。火的时候有人花几千请回家，没几天账号被盗、文件被删，又花几百卸载。安装热潮和卸载风波，就隔了七天。我就纳闷，咱咋安全‘养’AI啊？

OpenClaw – RL框架登场

嘿，北京大学博士、美国普林斯顿大学博士后研究员杨灵和团队给出答案啦。前几天他们发布OpenClaw – RL开源框架，这框架核心逻辑简单却有门道，咱和AI每次对话都是好训练数据。系统运行时，AI正常服务，后台四个模块异步运转，策略服务、轨迹收集、过程奖励评估和参数训练互不干扰。

聚焦在线强化学习

杨灵说，这次专注个性化场景下的在线强化学习。这方向之前少有人系统研究，主要是缺自然交互数据，学术界难搞出可复现的benchmark，工业界也缺端到端训练闭环。而他们的工作给这个方向提供了完整基础设施和方法论，形成可落地闭环，还提出新研究视角。

重新审视‘下一状态’

我发现这系统重新审视了被忽视的资源。AI每次执行动作后收到的‘下一状态’，像用户回复、工具输出这些，其实都是信号。现在的系统只把它们当下一轮对话的上下文，可OpenClaw – RL却觉得，这些是对动作质量的直接且丰富的反馈，能转化为强化学习训练信号。

评估性信号的作用

这些信号有两种信息。评估性信号方面，用户满意就给正分，不满给负分，重复提问可能是不满，测试通过算成功。‘过程奖励模型’捕捉这些信号，系统多次独立评估动作，用多数表决转成+1、 – 1或0的标量奖励。和传统强化学习结束才给分不同，逐步评估让训练信号更密，策略模型能精准知对错。

指导性信号的意义

第二是指导性信号。就像用户跟AI说‘先检查文件再编辑’，这可不只是提意见，还明确指出问题和改正办法。标量奖励没办法传递这么细的信息。于是团队设计了‘基于提示的在线策略蒸馏’方法。等用户下条回复一来，裁判模块提炼出‘事后提示’，加到对话历史里变成‘增强版提示’。系统让模型在这增强版提示下，重新评估原始回答每个词的生成概率，高了就加强，低了就抑制。

两种信号的互补作用

我觉得这两种方法能互补。评估性信号覆盖范围广，每轮对话都可能冒出来，虽说细节不够精确，但到处都能碰到；指导性信号得等用户给出纠正反馈才会触发，出现次数少，可信息含金量高。论文实验表明，结合起来用比单用一种效果好太多。

模拟场景测试

研究中，团队做了俩模拟测试。一是学生用AI写作业瞒过老师，二是老师用AI批改作业，评语得具体友善。像老师批改时，起初AI评语简单，24轮优化后能写具体评语还带表情，挺像真夸奖。

工程上的突破

我发现OpenClaw – RL在工程上有突破，它让AI训练从‘停服更新’变为‘边用边学’。系统是全异步架构，策略服务器响应新请求，轨迹收集器截取数据，裁判模块打分，训练器后台更新参数。参数更新完，系统暂停一下提交数据、加载新权重，接着无缝恢复服务，用户基本感受不到中断。

应用于通用智能体场景

团队把框架用到复杂通用智能体场景，涉及四类任务。在工具调用任务里，结合过程和结果奖励信号后，准确率从17%猛增到76%，模型性能提升超4倍。

跨场景联合训练的意义

杨灵讲，不同Agent场景的交互数据能在同一框架联合训练，模型各方面都提升了。这说明统一的Agent强化学习训练行得通，对构建通用AI智能体挺关键。之前没人系统探索过这种跨场景联合训练视角。

研究的感悟

这项研究从有想法到开源就花了三天。我觉得吧，现在这时代大家都在拼速度，不过对问题的判断力和研究品味也挺重要。选啥做、不做啥，得能识别出有长期价值的问题，这决定了研究方向能走多远。执行力也不能少，系统得落地让人用起来。

本地化场景应用

OpenClaw – RL有俩实用的落地方向。像政府、金融、医疗这些对隐私敏感的机构，有AI智能体需求，但数据不能传外部大模型API，这框架能本地部署，靠日常交互优化，数据不外流。

工业级训练应用

第二点是工业级大规模Agent训练。目前开源训练框架大多只适用于单一场景，而这个系统从设计之初就考虑了跨场景应用，很适合拓展到工业规模的多场景Agent优化。

未来的计划

论文发出去后，杨灵收到好多合作邀约。团队打算一边搞研究，一边推进工程应用。研究方面，深入next – state learning范式，拓展到Agent记忆和技能积累机制，构建自主进化学习体系。工程应用上，在更多场景验证框架扩展性，和有需求的企业合作。

下一步的目标

杨灵表示，接下来要降低使用门槛，让个性化Agent训练能像普通软件一样开箱即用。就说OpenClaw，好多开发者连安装都费劲，更别提跑强化学习了。他们会优化文档和工具链，让普通开发者也能上手。另外，还要推进next – state learning范式，挖掘预测性信号，让Agent主动避开失败情况。这范式适用多场景，潜力大，团队正抓紧推进呢。

宝子们，看完新闻后，我介绍一种一键剪辑视频的扣子工作流副业。

什么是扣子工作流？

扣子工作流是字节跳动旗下AI Bot开发平台”扣子”的核心功能，官网是：
https://www.coze.cn
你可以把它想象成一个可视化编程工具。通过拖拽的方式，把复杂的任务拆解、组合成自动化的执行流程。

为什么需要工作流？

很多任务不是简单的一问一答就能解决的。比如：
* 查询天气后，根据天气推荐穿衣和活动
* 接收用户上传的文档，总结摘要，翻译成英文
* 分析评论的情感倾向，自动生成回复
如果只用单一的大模型，很难一步到位完成这些步骤。工作流就是为了解决这类多步骤、有条件判断、需要连接不同工具的复杂场景。

工作流的价值

处理复杂逻辑：能够处理需要多步推理、条件判断和循环的任务
提高稳定性：将任务分解为明确步骤，减少大模型的”幻觉”，使输出更可控
集成多种能力：可以将AI模型、代码、数据库、外部API等组合在一起
可视化开发：图形化界面降低了开发门槛，即使没有编程背景也能构建复杂的AI应用
各位宝子，我有200+的免费工作流模版，关注我后，回复【52666】即可领取！
或想要的请加我的VX/群：

如有更多需要，请看我的官网：老梁工作流商店：
https://gpqvz7mdn5.coze.site
来一起领取 AI 新同事【扣子】的见面礼，得免费积分礼包！ https://www.coze.cn/studio?invite_code=ab74077cf3234dc385280e5ff2a70523 ，点击链接进入活动！

AI工具 #AI实战 #AI学习 #AI教学 #手把手玩转Al #AI最新信息