乐于分享
好东西不私藏

华人团队开源AI养虾神器,开启AI边用边学新时代

华人团队开源AI养虾神器,开启AI边用边学新时代

点击蓝字,关注我们

AI热潮的起伏

不久前,一款叫OpenClaw的红色龙虾形象AI在社交平台爆火,引发‘云养’热。火的时候有人花几千请回家,没几天账号被盗、文件被删,又花几百卸载。安装热潮和卸载风波,就隔了七天。我就纳闷,咱咋安全‘养’AI啊?

OpenClaw – RL框架登场

嘿,北京大学博士、美国普林斯顿大学博士后研究员杨灵和团队给出答案啦。前几天他们发布OpenClaw – RL开源框架,这框架核心逻辑简单却有门道,咱和AI每次对话都是好训练数据。系统运行时,AI正常服务,后台四个模块异步运转,策略服务、轨迹收集、过程奖励评估和参数训练互不干扰。

聚焦在线强化学习

杨灵说,这次专注个性化场景下的在线强化学习。这方向之前少有人系统研究,主要是缺自然交互数据,学术界难搞出可复现的benchmark,工业界也缺端到端训练闭环。而他们的工作给这个方向提供了完整基础设施和方法论,形成可落地闭环,还提出新研究视角。

重新审视‘下一状态’

我发现这系统重新审视了被忽视的资源。AI每次执行动作后收到的‘下一状态’,像用户回复、工具输出这些,其实都是信号。现在的系统只把它们当下一轮对话的上下文,可OpenClaw – RL却觉得,这些是对动作质量的直接且丰富的反馈,能转化为强化学习训练信号。

评估性信号的作用

这些信号有两种信息。评估性信号方面,用户满意就给正分,不满给负分,重复提问可能是不满,测试通过算成功。‘过程奖励模型’捕捉这些信号,系统多次独立评估动作,用多数表决转成+1、 – 1或0的标量奖励。和传统强化学习结束才给分不同,逐步评估让训练信号更密,策略模型能精准知对错。

指导性信号的意义

第二是指导性信号。就像用户跟AI说‘先检查文件再编辑’,这可不只是提意见,还明确指出问题和改正办法。标量奖励没办法传递这么细的信息。于是团队设计了‘基于提示的在线策略蒸馏’方法。等用户下条回复一来,裁判模块提炼出‘事后提示’,加到对话历史里变成‘增强版提示’。系统让模型在这增强版提示下,重新评估原始回答每个词的生成概率,高了就加强,低了就抑制。

两种信号的互补作用

我觉得这两种方法能互补。评估性信号覆盖范围广,每轮对话都可能冒出来,虽说细节不够精确,但到处都能碰到;指导性信号得等用户给出纠正反馈才会触发,出现次数少,可信息含金量高。论文实验表明,结合起来用比单用一种效果好太多。

模拟场景测试

研究中,团队做了俩模拟测试。一是学生用AI写作业瞒过老师,二是老师用AI批改作业,评语得具体友善。像老师批改时,起初AI评语简单,24轮优化后能写具体评语还带表情,挺像真夸奖。

工程上的突破

我发现OpenClaw – RL在工程上有突破,它让AI训练从‘停服更新’变为‘边用边学’。系统是全异步架构,策略服务器响应新请求,轨迹收集器截取数据,裁判模块打分,训练器后台更新参数。参数更新完,系统暂停一下提交数据、加载新权重,接着无缝恢复服务,用户基本感受不到中断。

应用于通用智能体场景

团队把框架用到复杂通用智能体场景,涉及四类任务。在工具调用任务里,结合过程和结果奖励信号后,准确率从17%猛增到76%,模型性能提升超4倍。

跨场景联合训练的意义

杨灵讲,不同Agent场景的交互数据能在同一框架联合训练,模型各方面都提升了。这说明统一的Agent强化学习训练行得通,对构建通用AI智能体挺关键。之前没人系统探索过这种跨场景联合训练视角。

研究的感悟

这项研究从有想法到开源就花了三天。我觉得吧,现在这时代大家都在拼速度,不过对问题的判断力和研究品味也挺重要。选啥做、不做啥,得能识别出有长期价值的问题,这决定了研究方向能走多远。执行力也不能少,系统得落地让人用起来。

本地化场景应用

OpenClaw – RL有俩实用的落地方向。像政府、金融、医疗这些对隐私敏感的机构,有AI智能体需求,但数据不能传外部大模型API,这框架能本地部署,靠日常交互优化,数据不外流。

工业级训练应用

第二点是工业级大规模Agent训练。目前开源训练框架大多只适用于单一场景,而这个系统从设计之初就考虑了跨场景应用,很适合拓展到工业规模的多场景Agent优化。

未来的计划

论文发出去后,杨灵收到好多合作邀约。团队打算一边搞研究,一边推进工程应用。研究方面,深入next – state learning范式,拓展到Agent记忆和技能积累机制,构建自主进化学习体系。工程应用上,在更多场景验证框架扩展性,和有需求的企业合作。

下一步的目标

杨灵表示,接下来要降低使用门槛,让个性化Agent训练能像普通软件一样开箱即用。就说OpenClaw,好多开发者连安装都费劲,更别提跑强化学习了。他们会优化文档和工具链,让普通开发者也能上手。另外,还要推进next – state learning范式,挖掘预测性信号,让Agent主动避开失败情况。这范式适用多场景,潜力大,团队正抓紧推进呢。

宝子们,看完新闻后,我介绍一种一键剪辑视频的扣子工作流副业。

什么是扣子工作流?

扣子工作流是字节跳动旗下AI Bot开发平台”扣子”的核心功能,官网是:
https://www.coze.cn
你可以把它想象成一个可视化编程工具。通过拖拽的方式,把复杂的任务拆解、组合成自动化的执行流程。

为什么需要工作流?

很多任务不是简单的一问一答就能解决的。比如:
* 查询天气后,根据天气推荐穿衣和活动
* 接收用户上传的文档,总结摘要,翻译成英文
* 分析评论的情感倾向,自动生成回复
如果只用单一的大模型,很难一步到位完成这些步骤。工作流就是为了解决这类多步骤、有条件判断、需要连接不同工具的复杂场景。

工作流的价值

  • 处理复杂逻辑:能够处理需要多步推理、条件判断和循环的任务
  • 提高稳定性:将任务分解为明确步骤,减少大模型的”幻觉”,使输出更可控
  • 集成多种能力:可以将AI模型、代码、数据库、外部API等组合在一起
  • 可视化开发:图形化界面降低了开发门槛,即使没有编程背景也能构建复杂的AI应用
    各位宝子,我有200+的免费工作流模版,关注我后,回复【52666】即可领取!
    或想要的请加我的VX/群:

    如有更多需要,请看我的官网:老梁工作流商店:
    https://gpqvz7mdn5.coze.site
    来一起领取 AI 新同事【扣子】的见面礼,得免费积分礼包! https://www.coze.cn/studio?invite_code=ab74077cf3234dc385280e5ff2a70523 ,点击链接进入活动!

AI工具 #AI实战 #AI学习 #AI教学 #手把手玩转Al #AI最新信息

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 华人团队开源AI养虾神器,开启AI边用边学新时代

猜你喜欢

  • 暂无文章