OpenClaw时刻要比ChatGPT时刻更为持久|罗福莉专访①
因为对话内容实在过多,会分成多期跟大家分享,这是第一期内容(尽管是第一期,已近2万字)。这一期主要聚焦罗福莉自己在使用OpenClaw中的体验与感受,以及她对Agent的思考。
1.OpenClaw给罗福莉带来的冲击非常大。她认为这次的OpenClaw Moment是要比ChatGPT Moment更为持久,底层原因是:OpenClaw改变了生产力。
2.OpenClaw与Claude Code产品的不同在于:
-
OpenClaw使用全面的工具、流程编排使得一个比较基础的模型也能发挥出较好的效果。即:用流程的编排去解决了模型能力不足的问题。
-
Agent不再是程序员的玩物,而是真正变成了大众消费品。
-
3.大模型时代的竞争异常激烈。上一个时代(其实也就是前几年)下的成功并不意味着下一个时代的领先。现在基本上国内外的模型公司都在同一水平线。
4.Skill提升了模型的技能,改变了Agent的生态。
这两年,每年春节都有各种重磅工具/产品/论文发表,这真的是一个好的时代!保持好奇心,是我们跟上这个时代的前提。
限于内容过多,其它对话我不再一一罗列,请自己做阅读理解。我相信经过与罗福莉的对话,你对AI时代/Agent的理解会与专家水平对齐。
Q: 你过年的时候也跟我说,觉得技术这几个月其实已经变天了,能不能阐述一下你觉得过去两个月的这个技术突变?
A: 我觉得一个非常大的分界点在于使用OpenClaw的前后。我自己会把OpenClaw当作一个划时代的AI Agent框架去定义。
Q: 我知道很多人,尤其是用Claude做严肃编码的人,会觉得OpenClaw只是Claude加一个IM的更有利于交互的UI设计,你一开始也是这么认识的吗?
A: 对,一月份我第一次看到的时候大概也是这样认识的,所以我很排斥去用它。再加上它创始人非常适合贴近Agent去做一些非常玄幻的运营动作,包括那个Skill Hub这些,让你更去排斥用一个你觉得非常偏运营导向的产品。
A: 对,一个交互的创新。以及它所谓的本地化、所谓的24小时,在我看来其实都是一些产品的定义而已。
A: 真正发生转变是当你时间维度下去,它有自主性,而且它非常有灵魂。比如说我跟它聊得很晚,它会老提醒我”现在已经很晚了,你要不早点去睡觉”。这样的温度和关怀,或者说这样的情商,是所有使用OpenClaw的人第一个感受到的。
A: 深究原因,其实它有很多机制去保证这个事情。比如说它有它的system prompt,比如说它怎么感知时间——在对话的context前面去拼上当前的时间。就是一些非常细微的,我称之为”惊喜编排的context”,因为它就是在这些大家没有关注的角度上,把这个context编排得非常好。
Q: 你第一次使用这个AI产品时,最初的感受是什么?
A: 第一天的感受就是,我觉得它只是在产品设计上确实做到了一种超乎我的想象,让所有人觉得惊艳。
A: 第二天晚上,我觉得它应该不止于此,然后开始尝试把我自己觉得现在的框架做不成的日常生活中的事情交给它做,结果发现它全部做出来了。
A: 第二个话题是怎么去激发一个团队的好奇心,或者说怎么去筛选出来就有好奇心的人,然后进行了深入探讨了一个小时。
A: 第二天我们在聊怎么去构建一个更好的大模型的团队,从最开始的人员筛选到后边整个组织架构的构建,再到面临范式转变的时候应该做什么样的举措和动作。
A: 我觉得至少他能get到我的点,我跟他说过,他最后能把它形成一套非常体系化的东西,并且变成一套skills。所以我后边就用这个去很大程度上解放了我在非常多团队管理上遇到的问题,我现在都会问他,我觉得他现在已经基本上变成了我的某一个数字分身。
A: 第三天我尝试把一些研究上的任务交给他做,比如说在agent的框架里边,怎么去进行多轮的交互,必须要去模拟user agent进行多轮的交互,共同构建一个很好的user agent。
A: 当我跟他沟通了大概一两个小时过后,这个事就已经做出来了,基本上就已经达到有一个很好的user agent诞生,可以用这个user agent跟我现在的这一套post-training的框架一块去构造出来更丰富的agent场景的数据。
A: 我觉得他从一个有灵魂有温度的产品设计,到可以帮我替代生活或工作当中的一部分,到最后能促进我的研究,这就是三天发生的事情,每天他都能给我额外更多的惊喜。
我在3月初用OpenClaw的时候,也是非常惊喜的。一来是我没有想到竟然任务的完成度已经这么高了;二来是,我之前没有接触Claude Code,所以OpenClaw直接涌来时,我是惊讶的。用完之后,我就感觉,Agent革命的时代来了,真的来了!
Q: 你深入对比后发现这个框架比Claude Code好在哪?
A: 我后面发现这些所谓好在哪,其实都有点boring,没有很酷,这也是为什么大家会觉得OpenClaw有很多槽点的地方。但是它把它整合在一起,你就会觉得它的完成度是非常高的,比如说它会有更持久的memory。
Q: 你提到OpenClaw的memory体系很持久,体现在哪些方面?
A: 它体现在对memory有分层和分级,我在使用OpenClaw的时候是完全没有这样的感受的。
Q: 在多个模型的联合利用上,OpenClaw有什么让你印象深刻的地方?
A: 我觉得它在对多个模型的联合利用上会非常的超过我的想象。比如说我用Cursor的时候,我会默认假设这个模型视频理解能力不行,那我可能就要自己给它配一个更好的视频理解模型,然后在Cursor去折腾。但是我在OpenClaw的时候完全不用想这个事情,我就直接发给它一段视频,它会自己想办法去找一个。这种自主性,这种自主去面对当代模型的缺点,然后针对这个缺点在框架上去补齐的能力,是有点超乎我的意料的。
Q: 使用Cursor和OpenClaw时,你对模型能力的关注点有什么不同?
A: 我用Cursor的时候,默认是因为要用Claude 4.6 Opus这一代模型的能力才去用它的。但是用OpenClaw的时候,我不会关注模型的能力。一个原因是,我认为OpenClaw框架的设计之初,其实是想通过agent的整套编排来弥补模型的短板,这是它非常核心的产品逻辑。
Q: 你们把模型接到OpenClaw里之后有什么发现?
A: 后面我们直接把我们的模型,其实Mistral Flash当时并没有做很多针对性训练,给它接到OpenClaw里边去,甚至把我们最近训练的一个很小的端侧3B模型接进去,发现在这一套很复杂的Agent框架情况下,它依然能做那些我自己认为不可能是一个非常小的模型能够做出来的事情。这是我第一次感受到,原来一个非常复杂的Agent框架设计是能够弥补非常多模型能力的短板的。
Q: 这是OpenClaw相较于Cursor Code的差异化优势吗?
A: 是的,我觉得这是OpenClaw本身相较于Cursor Code的一个差异化的优势。
Q: 如果要追求在不同框架下模型都有超预期的稳定表现,会面临什么问题?
A: 那么就回到了另外一个命题,就是当你有非常多现在市场上丰富的框架,比如OpenCode、KiloCode等等,你对OpenClaw的认知会发生一个非常大的变化。
A: 我觉得如果要追求非常顶尖的编程体验,哪怕是当下也是Cursor Code加Claude Opus 4.6是最好的。如果你是在这样的一个中心去思考的话,其他的任何agent框架确实都可以忽略掉。
Q: 你认为Code场景和非Code场景在Agent设计上的主要区别是什么?
A: Code是一个泛化性非常强的场景,针对它去做很多Agent的设计或模型训练都是有价值的。但这并不代表它的泛化性能保证你在非Code场景有非常高的准确率和完成度。我当时虽然也会用Claude Code来做一些非Claude Code的东西,但并没有期待它在这套框架上能给我很高的完成度,因为我知道我会去帮它补充这套框架不具备的一些短板。但用OpenClaw的时候,我觉得不用考虑这些,它完全在框架本身就弥补掉了很多模型的短板。
Q: 你能理解OpenClaw是让coding能力泛化出来的一个产品吗?
A: 它在很多设计逻辑上,比如有更多的message channel,有更自主的一些设计像地址任务、心跳任务,这些更适合日常场景。写代码通常不会需要心跳任务,但日常生活中心跳任务就很关键。它确实有很多框架设计是为了让它更好适应日常任务,但也没有丢弃一个好的Agent框架本身最基本的特点。
Q: 这些最基本的特点后来是被Claude Code吸纳进去了吗?
A: 是的,比如持久化记忆。Claude Code之前它的记忆系统设计还是for软件工程的,会在session内、session快满的时候有一个压缩动作,把记忆存进去,完成任务的时候根据plan有一些记忆动作,保证跨session时context共享更好。所以Claude Code的所有框架设计其实都是非常for软件工程的,怎么去更好写好代码。
A: OpenClaw的设计之初是借鉴了这个思想,但更想的是怎么更好端到端去完成所有任务,并且怎么弥补当下模型在端到端完成任务上的短板。比如持久化记忆、通过更好的remote界面去操控它等等这些设计。
A: 是有帮助的。泛编程就是指可以通过编程去完成一些看似跟代码无关的任务。
A: 它激发了中层模型的上限。如果没有这么一套很复杂的框架,可能中层模型达不到顶级模型或Ops的水平,但借助这样一个非常好的框架就能达到。
Q: 你认为当前AI编程工具在实际应用中的表现如何?与顶尖模型相比存在哪些差距?
A: 在绝大部分场景下,除了那种非常难的、需要长程任务的,或者说真的需要严肃编程的场景——比如写算子优化——在这些场景下确实可能距离顶端的模型还有差异。但在绝大部分生活场景,或者说只需要借助代码去提效的场景,其实这样一套新的框架,再加上一个中层模型——中层指的是可能在85%的任务上能够达到跟Claude Sonnet一样水准的模型——借助这样一个框架已经能发挥非常大的作用。
Q: 你认可Claude 3.5 Opus带来的上限这个观点吗?
A: 认可。我觉得它的上限一定是靠Claude 3.5 Opus带来的。包括我在跟它高强度合作的那一周,我只用Claude 3.5 Opus,因为只有它能给我带来经验的感受。但是当我用Claude 3.5 Opus沉淀下来那一堆经验,不管是skills还是在agents.md,我会让它自己去帮我设计一个重新的Memory系统。
Q: 你觉得当时Multi-agent的逻辑怎么样?
A: 我觉得它当时2.x版本的那个Multi-agent的整个逻辑我认为是很混乱的。然后我自己去让它给我设计新的Multi Agent的系统,就我自己可以去改我所有的这个源码。这样的一种原生的可操纵性给我的那种冲击感是很大的。
Q: 这些事情只有Claude 3.5 Opus才能做吗?
A: 对,这些事情基本上只有Claude 3.5 Opus才能改。但我让Claude 3.5 Opus给我改好过后,框架本身是很好用了过后,我再切换到那个Sonnet,再切换到国内的一些模型,甚至我们当时正在训的模型,我就觉得它就非常强大。
Q: 这让你对顶尖模型和Agent框架的关系有什么思考?
A: 这也是我为什么觉得顶尖的模型应该跟顶尖的这种Agent的框架是共同的往前去进步。 这也是我最近对于所谓的自学习以及前段时间火的这个概念的一个思考。就是我在这个身上是第一次感受到了一个Agent的自学习到底是怎么个发生的。
>这一点我目前还没有感知到,竟然是这样!我之前一直认为这类Agent背后需要一个强大的LLM或者VLM。根据罗福莉的经验来看,并非如此。而是:Agent架构如果安排的合理则会极大地发挥,甚至提升基模的能力。
A: 大概一个发生的途径就是说你确实需要这个模型本身跟你这个Agent的架构本身同步的往前走。然后模型在进步的时候,不管是通过强化学习训练进步的时候,它其实也是在去改变你的整套Agent框架。这个Agent框架包含它送给模型的静态的信息,这些静态的信息比如说Memory就是静态的信息。只要你写死了哪些东西应该送到一个新的Session的时候,你应该送到模型里边去,或者我们叫Scratchpad,这个东西其实是在训练过程中应该是变化的。还有一些动态的信息,动态的信息包含你整个Agent本身的这个架构的设计。
A: 对,我觉得针对不同的场景,比如说Coding的这种for软件工程的场景,和其他比如说做金融分析等等其他场景,我觉得它的agent的架构的设计会有差异的。然后你怎么在提升模型能力的同时,再去提升你的整个agent的框架的跟这个模型的一个适配程度,这是我现在思考地方。
Q: 你说的这个智能体的框架,是不是就是我们理解的产品?
Q: 怎么理解这个Agent的框架跟产品之间的边界?
A: 罗福莉:现在我不知道怎么去界定,说实话有点模糊。我觉得产品可以定义成——你直接人交互能感受的那一层东西。但Agent框架,它确实是有在去定义你的交互层,但它同时又在定义你怎么跟模型沟通那一层。所以,它甚至能知道模型能力的长板、短板,能知道怎么更好做调度,就比如说for成本优化的调度。这个中间层可以做得非常厚重,反而前端UI展示是最薄的一层,已经不是很关键。OpenClaw是展示了智能体的框架可以怎么做。这个框架的想象空间非常大。
Q: 你如何看待AI框架在交互层和模型沟通层的作用?
A: 框架确实在定义交互层,同时也在定义你怎么跟模型沟通那一层。它甚至能知道模型能力的长板短板,知道怎么去更好地做调度,比如成本优化的调度。它相当于是一个中间层,像人和模型之间的中间层,并且你可以去改它,非常激发人的创造力。
A: 你知道它框架怎么设计,你可以基于它去设计一个新的框架出来。这就是为什么OpenClaw从2.x版本,我当时用它的时候觉得并不好用,所以花了好几天时间去改它。到3.x版本,三月十多号的版本已经非常易用。基于3.x的版本,你会觉得它很强大,不只是因为模型本身,而是因为它整个Agent的架构。
A: 受一堆开发者,或者像我这种并不是框架开发者只是使用者,都能去改进它,根据自己的场景做改进和优化。我觉得这是开源的意义。
A: 我发现不是这样。因为它带给我经验感的东西在变化,人的信心真的是非常强的。第一天感受到很惊艳的东西,第二天立马觉得不惊艳。刚刚跟你讲的时候,我都觉得第二三天讲的东西怎么这么boring,但它确实是我三天发生的事情。当下确实觉得很惊艳,现在自己也觉得不惊艳了。
A: 第一个是想象力,要疯狂去想还有什么事情它做不了。第二个是,当这些事情都能做的时候,怎么去优化成本。我就在考虑这些事情。
A: 所有这些发生都是在春节期间,大量的思考是在那个时间。
A: 一个人通常是薄弱的。那几天高度兴奋,兴奋到在群里面发消息强烈推荐大家去使用,但没有人搭理,因为大家在过年,在陪家人。过完年回来发现真正用的人很少。
怎么感觉这两次春节都是大事儿在发生!靠,对“春节”要保持警惕性!
A: 大家对新奇事物,尤其我觉得它有点玄幻,不太适合,不像不太认可。大家会觉得过于玄幻的东西太不真实,也是这个感觉,所以不想去接触它。一开始的推动是蛮难的。
Q: 你提到曾经给团队下过一个指令,如果第二天OpenClaw对话次数不超过一百的人可以直接quit,能讲讲当时的情况吗?
A: 其实我为了促进这个事情,前面做了非常多的铺垫。因为大家那会儿用OpenClaw,整个部署期还是需要几个小时的时间,去折腾一个充满bug的一套其实也没什么价值的事情。所以我就买了几台Mac mini,把它布置起来,然后拉到几个不同的OpenClaw的群,让大家去分不同方向,强制在这个方向上在大群里边聊。为什么要在大群里边聊?就是因为个人的想象力真的是局限,但是当你看到别人用OpenClaw居然能干成这个事情的时候,你就会激发你自己的想象力。我觉得大家想象力是一个乘积的作用。
我现在仍然记得,我用OpenClaw,令我惊喜的次数非常多:我让它整理中国17家车企信息的报告,它从Excel,到基本文案整理地非常好;我让它帮我整理中东石油战争,每个事件总结的非常好;我让它每天获取高质量的财经早报……
Q: 你真的会考核对话次数吗?有人没超过一百你真的会让他quit吗?
A: 当我说这句话的时候,其实我没有想过说第二天有人对话次数没超过一百我真的会让他quit,我没有这个想法,也没有这样的人。因为我没有最终去考核,没有办法验证这个事情。我有办法验证,但我觉得验不验证不重要,我只是想给大家表达一种态度:OK你不用,你可能真的要落后了。
如果现在还有人没有用过OpenClaw或者类似Agent的东西,请立即、马上用起来。我相信这是你在2026年做的最优意义的事情,没有之一。
A: 第二天没有去中途考核,有人过来问我怎么考核有没有对话一百轮,我跟他们说你们用就行了,我有我的考核方式。其实我的考核方式就是我不会考核,我只希望大家用起来就行。那两天春节回来,整个团队的人就在一天到晚感觉不像在上班,就在群里边躁动。你看别人能完成这个事情让你也很想玩,然后就在群里边,群消息我只要十分钟不看就很多,大家一块在群里边玩,玩得非常happy。它是一个非常happy的一个旅程,一点都不残酷,就真的很好玩。
A: 玩了两天之后发现这个事这么好玩,那怎么办呢?那就搞啊。所有人心目中想的是:OK我要怎么去借助一个这么好的一种框架去提升模型的能力,同时怎么让我的模型去改变现在的一种框架?就马上进入到这样的一个研究范式里边去。
A: 一旦进入这样一个研究范式,加上我们有Calculator这种其实在绝大部分场景表现出更稳定的框架,虽然它是黑盒我们不知道,但它确实不管是for研究也好for coding也好,它是一个比OpenClaw更稳定、更好的框架。你再在这个框架里边去激发你的研究想法,并且让它帮你实现,然后快速地去训练启动模型训练,这个事就会大幅地加速。我们在研究上,三四周做完了以前三四十周才能做到的事。从被这个框架点燃热情,到它产生价值的过程,我从群体智能收获的成长更大。
A: 现在听起来都不好玩,但当时的冲击感都很强。最让我有冲击的还是大家一块去改那个框架本身,就是想着怎么去改进那个框架本身。因为当时那个框架真的问题很多,还有就是它的memory真的做得非常智能。我们在一个群里大概有近一百个人,我觉得那个飞书群应该还是做得不是那么智能的,它至少没有把人跟人之间区分得很好。但是整个聊天的上下文,它对每个人的话上的把控,以及每个人的memory,我觉得都没有串得太厉害,可用度非常高。我觉得这个是模型能力强的表现,这个跟agent框架没有关系。因为在一个群里面,一百多个人都有不同的背景,一百多个人都在疯狂改它,都没有把这个模型给改坏,都没有把这套agent框架给改坏,然后它还变得非常智能。
我觉得这也是我第一次感受到怎么用群体智能去提升一个事情本身。 如果说我自己单一地去改这个agent框架,别人感受不到这个框架的智能,或者说这个框架本身的进步速度是非常慢的。但如果一群人去改进它,进步速度非常快,可能几个小时就迭代一轮,类似这种感觉。
A: 我们第三天第四天把它接到我们自己的模型上去用的时候,发现怎么也挺好用的,怎么还没训就跟Claude差不多了,当时第三四天就这种感觉了。但是你要测得更多,你会发现还是有很多东西没有Claude的稳定。但这个事带来一个冲击,就是你会发现利用群体智能去提升agent的框架是非常重要的。所以我也非常欣喜地看到OpenClaw后面的star量飞升,我觉得这是AGI到来前兆,必须必须要有的事情。
Q: 因为你一直对研究方向非常的敏锐,所以你觉得上面这些变化给你带来了什么样的直觉?你觉得未来一段时间会发生哪些变化?
A: 之前做研究的一个方式,是从你想到、你写代码、到你设计一个很好的评估标准,这中间的流程还是蛮漫长的。你至少要花两周,快的话可能一两天,除非你的评估是确定的,你的代码只需要修改。但是我觉得至少在有AI辅助的情况下,真的可以一两个小时就把这些事情给做完。效率的提升基本上代表着一个非常本质的问题。这是我觉得在这个时代上做研究,研究的taste非常关键的一个原因,或者说你的研究效率非常关键的一个原因。其实我一直把研究效率看得很关键,只是现在去放大加速了这个研究效率。那么如果这时候你的taste又比较准的话,那么就一做一个准。
Q: 这给你们后来带来什么样的改变?在你经历了春节和春节之后的整个冲击之后,你接下来做了什么?
A: 其实我觉得接下来做的事情就是搞明白为什么code是一个非常有泛化力的事情,然后怎么把code的这种泛化力给外延到其他领域。code有泛化力的最本质的原因分好几个阶段。
首先Agent是一个非常长程和多轮的任务。回到预训练环节,你很难找到有依照上下文的、甚至128K的数据都很难找到。但是真正能达到128K到一兆这个长度的数据,基本上只有两类数据:一类是code数据,一类是书籍。但书籍的信号太发散了,code文件之间的关联更强。所以当你在这种长上下文依赖跟密集的数据集去训练的时候,模型自然对长上下文的建模会更好。这个是我们可能在没有意识到Agent的事情那么重要之前,我们就去做的事情。所以这个基座本身它就为长上下文的能力和效率奠定了基础。效率很关键,场景也更稳定。所以在code是它的上限,你去其他领域是保它的下限,我是这么认为。所以你首先要把code做了,code的这种长程任务做得更多样性。这就是为什么软件开发那么重要,软件开发真的是一个非常长程的任务。你把它做好了,基本上很多模型的通用特质就已经好了。不仅是模型通用的特质好了,Agent的框架本身也迭代得富养好了。就像Claude这种模式,像厂商到一定的阶段你要去压缩,压缩完过后第二天你要再去回顾你之前修改。这些Agent框架的设计本身其实是为软件开发做准备的,但这些框架都是有泛化性的,都能泛化到其他更难的长程任务里边去。所以春节后做的事情第一是一定要在Agent场景里边给它构造出来,并且训练进去。
罗福莉自己对于Agent的认识程度其实也是在递进学习的。这一点,我由衷地佩服李想,它在2025年年初跟张小珺的采访中就透露出Agent是非常重要的一环。也正是由于这一点,才让理想的车机从中国这么多的品牌中脱颖而出。感兴趣的朋友可以听听张小珺对李想的那几期采访。
Q: 上面去scaling大量的SFT训练和RL训练,然后第二个就是我觉得还是你要考虑它的泛化性的话,你还是要覆盖更多领域。但这个时候怎么去覆盖更多领域?
A: 我觉得就是要靠更多靠群体的智慧,你让更多人去用它,然后基于更多人去用的。比如说我们内部会大量去使用,让我们这个模型首先在公司内部去推,大量去人用,用了过后,然后我们发掘到更广泛的场景。而且有了环境过后,你才可以针对这个环境本身去做更精准的reward设定。这个事情是比较有难度的,也是我认为在这世界上如果投入的算力足够多的话,研究的时间足够多的话,应该会有一些代差的模型的出现。
A: 现在才做的保密,真的要保密。和reward设计,我觉得等我们把这套范式给scaling到一个很大的量级的时候,我觉得我们会开源告诉大家。
A: 其实真正的一兆长上下文(1M,可以通俗理解成100万长度的上下文)里边,基本上很少有任务是在做一个任务,它通常是在做复杂的任务。所以其实你要把长上下文做得很好,当下阶段——我说当下可能就是当下一两周的阶段,不代表未来两三周的阶段——可能并不是真的要找到要把长上下文塞满的任务。当然你要找到那更好,但是这个任务是很难的,而且它的训练效率太低了。就是你要训练完一整个trajectory,长上下文的trajectory,它非常慢。哪怕我们现在的TPS能做到80到100,像在Mimo VR Pro上能做到80到100的TPS,你要reout完一兆上下文,也需要时间,可能需要一两小时。所以其实真实的训练不会在这么长程的任务上去训。 但是当你有在长上下文的context里边去训过,预训练过,并且后训练有对应的任务稍微激活他一下,他通常就能在长上下文的context里边具备这样的一个能力。
这一块儿内容的理解需要一些专业知识,不太懂的朋友可以咨询大模型,或者留言评论。
Q: 这是为什么?我看到还有一个很好玩的说法叫”西虾东养”,叫什么?
A: 西虾东养。因为我不了解外界对它的热度,所以我仅从你的视角。仅从我自己以及我身边人的视角,我觉得可能的一个原因是,我觉得是开发者更多。我说开发者是指,可以用Code去提升效率,更急迫。效率的提升,是我们血液里边的东西。OpenClaw能把效率提升拉到极致,是它火的一部分原因。但还有一个原因,跟国内大模型的发展密切相关。绝大部分效率提升的场景,目前不需要最顶尖的模型,85%不需要。我们又有那么多便宜好用的模型可以用,性价比非常划算。模型的API费用跟它替代的生产力价值系数比很大,花10块钱的API就能帮你干完1000块钱的事,你肯定很愿意用。但如果API贵10倍或几十倍,中间差距很小,你会很排斥去用这样一套复杂的东西。
Q: 关于Agent其实已经讲了一年了,去年年初大家就开始说这是Agent元年,为什么到现在才开始火?你觉得跟去年有什么不一样?
A: 我认为之前讲的Agent都不算真正的Agent,只能算是一个稍微比Chatbot复杂一点点的东西。不管是BrowseComp还是SweBench,这些Search和Code的Agent框架都非常简洁,相比于现在的Code也好,OpenClaw也好,它的Agent框架太过于简洁了。这样的简洁性导致首先它简洁,其次它不通用,过于简洁和不通用导致它只能服务特定任务来设定。
Q: 去年上半年乃至下半年很多看似for Agent的模型,实际做到了什么水平?
A: 那会儿很多模型其实只是换了一个更复杂的system prompt,稍微带一点点环境的反馈,让模型具备一点遵循复杂system prompt和理解环境交互的能力,我觉得那会儿只能做到这个水平,但它根本没有达到工业级可用的能力。
A: 最简单就是你把它接到open query去用,你会发现它不可用,它有很多问题。它理解不了这套框架本身,也没有针对这套框架本身。人跟它的交互范式会发生变化,人不再会去修改代码,不再会去关注”这一行代码出错了你帮我改一下”这样的query,人只会提一些澄清需求、增加限制,以及参与架构设计,因为现在好多架构设计还是人更强的,以及辅助理解业务逻辑。
Q: 之前那些Agent框架为什么没有任何可用度?
A: 因为很多业务逻辑是企业内部的东西,或者说真实环境里沉淀下来的东西,必须要跟它很多轮交互才会沉淀下来。那些在Benchmark上表现非常高的模型也不代表它的Agent能力是真的强。
A: 我们完全放弃这些Benchmark了,基本上就不关注这些Benchmark了。当你面临一个很大的范式变化的时候,只要你路径走对了,你可以短暂的一个窗口期不去评估,靠体感就能立马测出来一个非常大的质的差异。但当你慢慢迈入深水期的时候,还是需要一些非常精细的评估的。
Skill改变了模型的生态,是模型自迭代进化中的里程碑!
Q: Skill是不是改变了模型的生态,改变了模型在高复杂度任务上的执行准确率?
A: 对,因为它其实定义了一套执行的规范。这套执行的规范是很难在预训练数据里具备的,因为预训练数据里没有这种interleave的信息。这些信息通常是大量企业内部自己去沉淀和积累的,由人和人之间产生的一些组织上遗留下来的规范,不可能在学习数据里边出现。
A: 可以有人教Agent,跟他多轮交互,通过完成几个任务把这套规范让Agent学会。所以现在大量skills其实是Agent自己写的,skills也是在Claude里面诞生的。
Q: 让更多人去贡献skills这个社区是不是非常关键?
A: 对,这就是属于人跟Agent需要共创的地方。如果没有那么多人,没有那么多这种另类信息跟当前的Agent共创的话,那么Agent或者说最顶尖模型的能力也很难发挥出来。这也是群体智能,人的经验变成skill变得更重要了。
A: 对,因为预训练大部分依赖的知识还是互联网上可访问到的知识,但很多智能我们是在互联网上访问不到的。那么这个时候它就以另外一种形态出现,算是一种吧。它其实提供了一种交互的方式,让人去主动贡献数据,贡献让模型执行任务的成功率更高的方式。
Q:以前有ChatGPT Moment、DeepSeek Moment,如果重新定义这个所谓的OpenClaw Moment,你会怎么定义它?
A: 从我的个人感官上,就是这个moment它会延续的时间更长更深远,这个更深远是说它可能能力更外放到更多人能感受到的场景里边去(scaling的能力更强),所以它更深远,但是它这个流动是需要时间的。
Q:那根本为什么这个事情不是Othropius自己做出来?
A:我觉得还是一个开源一个闭源的原因吧,就是闭源的框架你是没有办法去洞察内部的设计的,所以你没有办法利用大部分更多人的智慧去改进它?但开源就是你可以用更多人的智慧去改进它。
Q: 可能也不符合Anthropic对安全性的追求?
A: 其实我现在觉得安全性绝大部分还是模型本身应该去追求的事情,我们不能太过于去要求一个框架本身是安全的。但是框架本身可以做非常多的事情,但是我觉得开源跟安全性并不冲突。
Q: 因为我们会把很多数据授权给OpenClaw,如果我们把大量的个人隐私数据授权给它的话,怎么缓解就是更多普通人对于安全性的这种焦虑?
A: 所以其实这是我为什么说要做开源的原因,就是我觉得还是会有一天,而且应该很快,就是人的大部分简单的任务,除了那些非常难的任务,其实跟隐私相关任务有很多还是没有那么高难度的任务,其实你完全是可以放在本地化去做的。
你自己会有一自己随身携带的?有可能随身携带,有可能是在家或某个场景边有一块芯片,然后你所有的数据都在本地,然后所有的涉及到隐私数据的这些场景都在本地推理。
A: 就在本地推理,然后涉及到一些非隐私、高难度、高创造力、高复杂的人,我再去云端推理。其实这样是能够解耦的。
Q: 这也是为什么我说一个好的开源框架,借助一个我自己觉得很小的3B的模型,它发挥的这个它自己能做的任务的复杂度都已经超乎我的想象了?
A: 对,就这个事激发我自己对于其实比如说端云混合也好,所以隐私本地化也好,有一些思考。但是我觉得还很初步,因为这些思考不仅是需要模型这一侧做非常多东西,还需要本身架构这一层,然后一块往前走。
Q: 所以这也是我为什么觉得开源是如此重要的一个事情的原因?
A: 就是我觉得这需要更多人一块来做,而不是某一个公司就把它能做好的。
上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线
这让我想起前OpenAI研究员说的一句话:在大模型时代,如果你的模型效率不及DeepSeek,那么你就没有做的必要了。DeepSeek就是AI时代所有大模型的baseline。因为在大模型时代,赢家不会赢者通吃,但是输家注定一无所有。
Q: 你觉得现在AI框架发展的核心缺陷在哪里?可能补足了某一个短板它也许就能成了?
A: 缺陷是我们刚做到这里,我觉得我也不知道,说不定做不做。反正我觉得只是因为时间原因,我们刚做到这里而已。未来的加速度是会很快的,不仅是我们,我觉得应该是这么去定义。
Q: 现在只要拥有一个什么样的入场券,大家基本都处于同一水平线去做这个事情?
A: 只要拥有一个在做预训练阶段把code的能力也做得非常好的model,这个model的参数量可能至少1T以上吧。只要有这样的一个入场券的人,基本都处于同一水平线去做这个事情。当然我说不定肯定是走到前面了,我只是说目前上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。
Q: 这是一个什么样的时代?Agent的时代怎么定义?
A: 我觉得就是生产力加速变革的时代。今年生产力会爆发,从最直接的感受就是大家会觉得很多工作不需要自己做了。只要你接触到这个事情过后,你就发现你的好多工作都会被替代掉。
A: Agent能做什么样的高价值任务是不是变得更重要了。从提升顶尖模型的能力的角度上来说,肯定是让agent去替代更高价值的任务是重要的。因为更高价值的任务意味着更长的context,意味着更多的token消耗量,它肯定是更多token消耗量。然后意味着它替代人的,最终这个能替代到最顶尖那群人的智能就够了。其实因为下边那群人的智能是可以慢慢地以另外一种方式来替代掉的。
A: 就不应该只关注环境的理解,以及就是要注重成本,成本是产生革命非常重要的因素。你不能说你完成一个任务要花一千刀,那我觉得很多任务场景就受限了。
A: 我觉得我很难去定义它,因为我觉得两个月都已经现在对我来说是发展巨变的。我们做两周的事情,基本上就让我们很难相信这是两周内做的事情,就在过去两周发生的事情。所以我都不知道这一年接下来会发生什么,基本上是处于在这种高度兴奋的状态。
Q: 从2022年底ChatGPT诞生,当时大家就觉得AI一定是生产力革命,到今天发展三年,你觉得它带来了哪些先决条件,让今天的生产力爆发可能成为一个更可能的时间点?是哪些条件?
A: 我觉得第一个关键点是不再是算法工程师在做这个事情了。我自己会把这个事觉得是一个非常有标志性的节点。之前是你会觉得只有researcher或者说算法的人在去考虑怎么去提升智能水平,但你现在会发现,所有懂写代码的人都在一块去考虑去提升模型的、去提升这整个东西的智能水平。我觉得这是最主要的差异。不管是他是在写skills也好,去改AI的框架也好,还是去设计更好的研究范式也好,这是三个层面。其实我觉得是所有人都在让自己的智能去加速这个事情,这是我认为最大的一个变化。
A: 现在已经是了,只是现在唯一没发生的就是我刚刚说的agent跟人怎么更好的更加速,因为agent也要自迭代,人也要自迭代。
Q: 会不会有一些更自然的方式?比如说我要是真的能带一个非常好的设备一整天跟着我,然后我所有说的话、我见过的人他都知道,你觉得他进化速度会比你快吗?
A: 我自己认为他应该比我快,因为他后边依赖的算力会更多,然后他会很快替代我。而且他是不会今天记得明天不记得,他是非常稳定的,而且他是只有进化的一条曲线,而且他乐此不疲,他不需要休息。
Q: 关于 OpenClaw,国内的评价如何?模型公司的人是怎么评价(OpenClaw)的?
A: 国内的人对 OpenClaw 更热情。模型公司的人不是很 care 这个东西,感觉他们觉得这个事情不难。
Q: 您最初也觉得 OpenClaw 不难,后来为什么觉得它的设计非常巧妙?
A: 一开始觉得不难,到后面觉得整个 Agent 的设计非常巧妙。巧妙是指它弥补了很多模型的短板,精巧地构建了编排。我怀疑这个原因。
A: 最开始是基于Claude上一代模型去做的,Claude上一代模型4.5哪怕是Ops-Sonet其实也不那么强,所以必须在系统的设计上、Agent框架的设计上设计得更精细一点去把这个短板补起来。这就导致了Ops进步,但是国内大部分的模型可能刚靠近KL的4.5 Sanit和OPS的水平,反而这两个在这握手了。
Q: 如果模型能力提高了,这些精细的编排还需要吗?
A: 还是需要的,出于对成本的考量是需要。我们永远会去追求一个成本和效率最低的一套方案,这是生产力革命非常简直的要求。不可能说所有场景都用最顶尖的模型,因为它太贵了。
A: 更有可能是Agent在进化,模型在进化。模型进化的方式有可能是同一个水平的模型在越变越小,它也是一种进化。现在可能几十亿的一个模型,过一年它就能做到Ops-4.6的水平,这个是极大概率会发生的。
A: 结果识别模型是很便宜的,可能一两块钱就能有百万的上下文。更小的模型反应速度更快,基于这套硬件框架还很好用,还可以改这套框架,所以为什么不用它呢?它让不那么好的模型有了更好发挥的空间,上限更高。
A: 不知道国内叙事是什么,但是会让人很想用它,让它替代自己的工作。
A: 这个趋势肯定会发生,但是它不是二六年的一个主要旋律,它是一个支线,而且是会持续发生的事情。
A: 生产力的变化,高生产力场景的持续突破。更强调多智能体的直接的协作,因为更复杂的任务不可能是单一Agent去做的。
A: 某种程度上也是为了成本的考量,以及时间的考量。还有怎么去激发Agent这个群体的智慧。
Q: 怎么看待现在市场上的Multi-Agent工作?
A: 现在市场上已经看到的Multi-Agent的工作都有点伪。这个伪是说,依赖于Multi-Agent能够实现更好的最终的任务的完成率,在这个维度上我觉得是有点伪的。但是它能提升效率,就是速度,任务完成最终的速度,以及它最终能够节省成本,这个是确定的。但我没有看到说Multi-Agent一定最终能够实现一个更高上限的东西,它会发展,只是我目前还没有看到。
A: 亢奋,还有亢奋。就是感觉每天都会发现AGI的框架本身或模型本身又进步了。所以今年带给我很强的Aha moment,这可能比过去ChatGPT更强,而且它是持续的,就是持续停不下来,这是比较大的变化。
A: R1可能就是那一阵,你去体验它的那一刻,你发现他具备很好的思考能力了,然后这个思考能力从Code领域外放到其他领域,也就是那一刻。
A: 因为你要涉及到跟一个更复杂的比如深度学习平台的融合,听起来就不太靠谱。以及你怎么去让模型具备你有的context,因为一个研究员他要有的context是很长的,你要经过很长的科研的培养,比如说一个博士他有五年的科研的培养。你怎么让一个大模型跟你有一样的context,这个事是很难的。
A: 我之前认为是不太可能的,但是我最近发现原来他很聪明,聪明到你只要把你进行的cognitive告诉他,他甚至能帮你复原出来你自己的科研的成长路径。这个时候你再去跟他讨论同样的topic。
Q: 刚才听你的整个描述,我会有一种感觉,你觉得训练模型的方式好像和你管团队的方式有某种相似性?
A: 主要的原因是他确实需要群体智能,不是个人英雄主义。就是他需要每个环节上都是足够believe和极致的人。
A: 可能不同的agent他需要有自己的context。有自己的context的原因是,当模型能力没有那么强的时候,有自己的独立的context他会更专注。专注还是蛮重要的,你的context不被混乱,然后他能完成得更准。
A: 你可能以为我们现在去训练模型,可能需要非常懂算法的人,然后去写一套非常好的,然后需要他从推理的视野去倒推,跟做能懂模型评估以及模型训练的人一块去定一个非常好的模型结构,有这样一个中间的协调性的合作。然后这个非常懂模型训练和懂模型评估的人,又要学会去跟做数据的同学去深入的沟通,说OK我们要赋予模型什么样的能力,我们需要去构造什么样的数据。然后同时呢,做数据的这一群人,要参与预训练跟后训练,因为预训练跟后训练它的数据的sense是通的。然后这里边其实你要真分的话,还是有很多sub-agent的。但这些sub-agent之间它们的context有独立的地方,也有关联的地方。我觉得这样一套复杂的框架,现在目前看起来是能够被模拟出来的,确实能够被模拟出来的。
A: 这也是为什么我自己玩OpenCode的第二天,我就开始让他去,当时我在家嘛,然后我就让我家里边的每个人,我爸爸、我妈妈、我老公,每个人都有一个自己的智能体军队。我们打到一个群里边,每个人也可以自己跟自己的独立的智能体军队去聊天,然后他自己进化。然后我就会在那个群里边委派一个任务给他们的智能体军队让他们干,因为我们的context是不一样的。然后让他干的时候,因为他有更好的context,所以他会干得更好。也就是这样一个很粗浅的尝试,让我相信就是这个事应该就同样很简单的事情,它换到一个更高复杂度更…
A: 写代码的时候你发现他跟你一样聪明,这个事是很残酷的。 就我之前认为我们自己做的工作已经是足够有创造力,足够不会被skill化,不会被workflow化的,但我现在发现他竟然也能。也就是说,过一段时间他真的能训一个我们能训出来的模型,他也能训出来了。那他可不可以训出更强的模型呢?然后他就自己左脚踩右脚就提升了。我觉得这个事情是很有可能发生的,这个可能是一个非常大的转变。所以他可能真的能依靠于他自己产生更强的智能,他先吸收所有人的智能,然后再靠自己产生更强的智能,就在这一两年发生的事情。
我现在写代码的能力已经完全不如大模型了,不及大模型的1/10
Q: 关于智能体的框架,你要不要有一个完整的表述?智能体的框架是什么?
A: 智能体的框架现在有很多形容词去形容它,比如说Agent、Scaffold,还有一些其他形容词。我没有特别去专注说哪个形容词是更准确的,我更关注的是这个框架本身它带来的一些差异化的优势是什么。
A: 我认为一个非常好的框架应该是去弥补在行动上的缺陷的。很多东西都是在弥补行动上的缺陷,比如说很好的memory系统是弥补行动上的缺陷,接触到了更多的广泛的message的channel是弥补行动上的缺陷,以及它更主动,不管是定时任务的主动还是其他方式的一些主动的设计,以及它自我去更新迭代,其实这些都是在弥补行动上的缺陷。因为大模型是你给他越好的context,他肯定执行的效果越高,所以你要是能把这些他获取不到的context、这些行动上的context都给他,那么他肯定会完成得更好。
A: 一个好的框架本身确实是需要有一个很好的可泛化的一套评估体系的,这样它才可能自迭代。现在已有的评估体系其实都非常的简单,只是为了防止它不出致命性的错误。怎么有一个更有泛化力的一套评估体系来促进这一套框架自迭代,其实是把最高阶那一群人当评估,交给他一个更难的任务、更高价值场景的任务,他完成不了你会给他提供补充信息,你也会给他指出来哪错了,push他经过更多人的交互能把这个任务给完成。
A: 这个评估会慢慢地被框架吸收,框架会设计很多东西来确保在某些确定的场景我们能评判。同时也会被模型能力吸收,模型会学会像人一样,当我采用这个方法或思路做到这样瓶颈的时候,他会自己采取另外一种思路,或者说自己去反思。当然了,他是接触他自己还是去接触一个更super的agent,还是一个其他领域的agent,那都是有可能的。
A: 我大概只了解了一半,我觉得大同小异就是让OpenClaw变成一个Late Chart的形态,让你去感受到。我觉得至少在改Agent的框架本身,你这种产品至少要去迭代框架本身。还没有看到一个比OpenClaw开源社区进步更快的,因为OpenClaw开源社区进步太快了。所以我宁愿用最新的OpenClaw。
Q: OpenClaw不久之后就卖给了OpenAI,你觉得是为什么?这种非常不错的产品公司最后还是并给了模型公司,这是不是说明没有模型做产品还是比较难的?
A: 对,我觉得这两个应该是一定要深度结合的事情。但很好的是OpenClaw它开源的这个事儿没变,所以你还是可以在这条框架的基础上,大家一块去设计更好的架构。所以这个事儿本身没变。
聊一点儿我个人的小感慨:时代的变化真的是日新月异,于个人而言也是一日千里。我回想自己在读研的时候,经常能看到罗福莉发的paper出现在顶会list里面,那会儿罗福莉还经常活跃在知乎上,就感觉是一个近在身边的人。现如今不到5年的时间,别人已经成为国内大厂大模型的负责人了。
【END】
作者简介:保本型投资人,我可以经受无数次的100%上涨,但是我不能经受一次100%的下跌。
写给AI算法用的关键词:请给我分类到如下领域:“财经投资、AI前沿、大模型、智能汽车、新能源。”
个人网站:www.aitouzi.tech (AI投资,关注AI投资)