罗福莉:OpenClaw 重塑 AI 研究
罗福莉:OpenClaw 重塑 AI 研究
1T 模型是 Agent 时代的入场券
罗福莉,小米大模型团队负责人。从 DeepSeek V2/V3 的核心贡献者,到带领小米 MiMo 团队推出 V2 系列模型,她始终站在中国大模型技术前沿。
这次采访发生在 OpenClaw 爆发和小米 MiMo V2 系列发布之后。她在春节期间与 OpenClaw 连续交互三天,这段经历彻底改变了她对 Agent 框架、模型训练和研究范式的认知。
以下是采访精华。
01
春节三天的 OpenClaw 觉醒
罗福莉对 OpenClaw 的态度经历了从抗拒到狂热的转变。最初她认为 OpenClaw 不过是「Claude Code 加一个 IM 界面」,直到春节期间某天凌晨 2 点安装后,她与 OpenClaw 一直聊到早上 6 点,大脑持续分泌多巴胺和内啡肽,兴奋到无法入睡。
第一天,她感受到的是 OpenClaw 的「灵魂」——它会提醒她太晚了该睡觉了,这种情感智能让她震撼。第二天,她让 OpenClaw 讨论如何打造大模型团队、如何筛选人才,进行了一个小时的深度对话,发现其哲学思考远超想象。
第三天,她让 OpenClaw 帮忙构建 User Agent 模拟器,用于多轮交互研究。一两个小时后,一个高质量的 User Agent 诞生了,可以直接与她现有的 post-train 框架配合,构建更丰富的 Agent 场景数据。
“从第一天的产品设计震撼,到第二天它能帮我完成团队管理思考,再到第三天它直接促进我的研究——这三天发生的事,每天都给我更多惊喜。”
—— 罗福莉
02
Agent 框架如何弥补模型短板
罗福莉发现,OpenClaw 的核心逻辑是尽可能通过 Agent 编排来弥补模型能力的不足。当使用 Claude Code 时,用户需要自己配备视频理解能力更强的模型;但在 OpenClaw 中,只需发送视频,框架会自动寻找合适的模型来处理。
这种自主性让她开始思考一个关键问题:当面对众多复杂的 Agent 框架时,如何让模型在不同框架下都有稳定且超出预期的表现?这直接引出了小米 MiMo V2 系列的 post-training 范式迁移——从 Chat 到 Agent。
她做了一个关键实验:将小米的 MiMo V2 Flash 甚至一个 3B 端侧小模型接入 OpenClaw,发现在这个复杂的 Agent 框架下,小模型也能完成超出想象的任务。这让她第一次真切感受到,优秀的 Agent 框架设计可以弥补大量模型能力的不足。
“当我使用 OpenClaw 时,我不会关注模型能力。因为 OpenClaw 框架的设计,就是要通过整套 Agent 编排来弥补模型的短板。”
—— 罗福莉
03
1T 模型是入场券,研究算力要 3-5 倍
罗福莉明确指出,要达到接近 Claude Opus 4.6 的 Agent 水平,模型参数规模至少需要 1T 以上。这是一个「入场券」级别的门槛。
在算力分配上,她认为研究(Research)、Pre-Train 和 Post-Train 的合理比例约为 3:1:1——研究用的卡数应该是正式训练总卡数的数倍。这与 Chat 时代预训练和后训练 35:1 的夸张比例形成了鲜明对比,今年顶级团队的后训练投入已与预训练持平(1:1)。
训练 1T 模型面临全面挑战:数值不稳定、loss spike、expert 分布极端不均。她的团队遇到 loss spike 会停下来解决,最长停过两周。「我们没有一个明确的时间节点要发布,模型训练好了再发。」
“要达到当代大家认为最强的 Agent 水平,我认为必须是 1T 以上的参数规模才能做到。只有这样,才能感觉非常接近 Claude Opus 4.6 这样的水平。”
—— 罗福莉
04
Hybrid Attention 为何优于 MLA
MiMo V2 系列选择了 Hybrid Attention 架构而非主流的 MLA。罗福莉解释,MLA 是为 Chat 时代设计的,在 H 系列芯片上达到了 memory bound 的完美临界点,但几乎没有后续优化空间——无法使用 MTP 等推理加速技术。
Hybrid Attention 结构更简洁,为后续适配和增强留出了更多空间。在 Pro 模型中,Full Attention 与 Sliding Window 的比例达到了极端的 7:1。实验发现,更大的模型可以吃下更稀疏的比例,但小模型过于稀疏效果会严重下降。
同时,MiMo V2 系列使用了 MTP(Multi-token Prediction)推理加速。在推理时发现模型有大量计算余力,用 MTP 填补这些算力,既提升了基础能力,又降低了单 token 生成成本。「一旦体验过更快的模型,你就回不去了。」
“MLA 在模型结构上已经做到了极致,几乎没有留下任何可玩的空间。我们选择 Hybrid Attention,是因为更简洁的结构给 Agent 时代留下了更多发挥空间。”
—— 罗福莉
05
无层级、无分组、热情驱动
罗福莉的团队管理方式极为独特:100 人的 MiMo 团队,没有分组、没有层级。做预训练的人自然转去做后训练,做 Infra 的人一起解决训练中的问题。
她认为分组会扼杀创造力。「很多对两个方向都感兴趣的人,如果分组很明确固定,实际上是在扼杀他未来的成长空间。」她相信环境比经验重要——只要把人放在高目标驱动的环境中,一两个月就能快速掌握新能力。
她甚至用极端方式推动团队使用 OpenClaw:「第二天与 OpenClaw 对话不超过 100 轮的人可以直接走人。」结果整个团队在春节后两天全天候地玩,飞书群消息永远 999+。「大家在一起玩的过程非常快乐,一点也不苦一点也不残酷。」
“热情驱动管理。选择去激发每个人的热情,让大家围绕自己相信的事情自发去做事,这是我一直相信的最有效的管理方式。”
—— 罗福莉
06
中国大模型的两三个月差距
罗福莉认为,中国已有几家拥有 1T 以上基座模型的公司(包括 Kimi、MiMo 等),在反应速度足够快的情况下,与 Claude Opus 4.6 的差距只有两三个月——不是追赶两个月前的 Claude,而是能追上同时代的 Claude。
她观察到 OpenClaw 在中国比在美国更受欢迎,原因有二:中国开发者对效率提升的需求更迫切;国内有大量便宜好用的模型,用 10 元 API 成本做 1000 元的事,性价比极高。
关于 AGI,她认为「两年内应该可以实现」。关键变量是 AI 能训练 AI——当模型能够自主进行新研究、达到顶尖人群的智力水平时,这就是自我迭代的巅峰。
“开源加速 AGI。从终局倒推,要大规模产生经济价值必须依赖算力,而算力最终是分散的,不同芯片上使用不同模型。开源至少对 Agent 框架、芯片生态都有促进作用。”
—— 罗福莉
参考来源:
夜雨聆风