一场关于 OpenClaw、Agent框架与 MiMo 的万字深谈
码上赢AI·2026年 5 月

图 | AI 主题示意图(图源 Unsplash)
2026 年 4 月,张小珺播客邀请到小米大模型负责人罗福莉,在 OpenClaw 与MiMo-V2 系列模型先后发布的节点上,做了一次近三个小时的深度对话。她不喜欢媒体给她贴的“AI 天才少女”的标签,但这场对话中关于 OpenClaw、关于 Agent、关于 MiMo、关于组织、关于 AGI 的所有判断,都极具行业前瞻性。我把这场对话最重要的内容整理出来,分享给你。
✦✦✦
2026 年开年,大模型行业看似平静,实则风云突变。
一边是Claude 4.6 联手 OpenClaw 把 Agent 范式推到了一个所有人都没料到的高度,一边是国内厂商在春节后突然全部觉醒——Kimi、MiniMax 以及小米的 MiMo 团队,纷纷拿出对标硅谷顶尖能力的产品。
在张小珺的这场访谈里,罗福莉用极其坦诚的语言,复盘了她从抗拒、被震撼、到全力拥抱 OpenClaw 的那三天三夜,并把她对未来两年 AI 演进的判断和盘托出。
如果你想搞清楚 2026 年大模型行业到底在打一场什么样的游戏,这篇文章就是答案。
✦✦✦
一、那个改变她认知的春节深夜
罗福莉在春节前是抗拒 OpenClaw 的。
她对它的印象大概是:Claude加一个 UI 壳,顶多算一个产品形态的创新,甚至有点“玄学”——什么 Skill Hub、什么 24 小时本地化,听起来像营销话术。在严肃编码场景里,她坚定地认为 Claude 4.6 加 Cursor 才是体验最好的组合。
“第一次去用它,是在春节那段空闲时间。我装了两个小时才搞定。从凌晨两点一直聊到天亮六点——大脑里那种多巴胺还是内啡肽,我也说不清楚,反正持续在分泌,兴奋到完全睡不着觉。”
她形容当晚的感受时,先提到了一个细节:她聊得太晚,OpenClaw 主动提醒她“应该早点去睡觉”。这种温度、这种情商,是所有第一次接触 OpenClaw 的人都能感受到的。
但真正让她转变态度的,是它背后的设计哲学。
OpenClaw 通过 system.md、通过把当前时间拼到每轮对话的 Context 前面、通过分层分级的 memory 体系、通过对多个模型联合调度的精巧编排,在那些“没人关注的角落”上把 Context 编排得极其精细。她把这种精细命名为——“金编排的 Context”。

图 | 机器人示意图(图源 Unsplash)
第二天,她开始尝试把那些她认为现有框架完全做不成的事情交给它,比如“如何激发一个团队的好奇心”。一小时后,她拿到了一份体系化的方法论,并被沉淀为一套 Skills。
第三天,她大胆地把研究上的任务交给它——构建一个 User Agent 来模拟多轮交互。这是 Agent 训练里非常关键、她原以为要做很久的一个研究 Topic,结果一两个小时就完成了。
三天时间,OpenClaw在她心里从“有灵魂的产品”,变成了“可以帮她完成生活和工作的助手”,再变成了“可以推动她研究的伙伴”。
更让她触动的是另一件事:她让自家训练的 MiMo-V2 Flash、甚至一个端侧的 3B 小模型,接到 OpenClaw 里去跑——这些小模型,居然在这套复杂的Scaffold 下,做成了她原以为只有顶尖大模型才能做成的事。
那一刻她意识到:一个真正好的 Agent 框架,可以从结构上去弥补模型本身的能力短板。这是她在用 Claude/Cursor 这类闭源工具时,从未感受过的冲击。
✦✦✦
二、Agent 框架:模型与人之间被低估的“中间层”
Q:Agent 的框架,是不是就是我们理解的产品?
A: 不是,差异蛮大的。产品是你直接交互能感受到的那一层东西。但 Agent 框架,它既在定义你的交互,又在定义你如何与模型沟通的那一层——它是人和模型之间的中间层。
罗福莉对Agent 框架的定义,是这场访谈里最具洞见的一段话。
Agent 框架可以做得非常厚重,反而前端UI 是最薄的一层,它不再关键。
在她看来,一个真正好的 Agent 框架,应该具备这几个特征:
1. 更持久、更分层的 Memory 体系—弥补模型上下文窗口的物理限制
2. 多模型的智能联合调度—自动针对任务找到合适能力的模型,而不是把负担交给开发者
3. 更广的 message channel 与主动性—包括定时任务、心跳任务等让 Agent 主动行动的机制
4. 可自定义的架构与源码—用户和社区能改 Agent 本身,而不只是改 Prompt
5. 可泛化的评估体系—能不断迭代,而不是停留在“修 Bug”这一类单点任务
在过去一年里,我们听到的“Agent”概念太多了,但绝大多数其实只是“把 System Prompt 写得更复杂一点”。AutoGPT、LangChain 等早期框架在罗福莉看来,过于简洁、过于单一、过于不通用。它们在 SWE-bench 上跑得再高,接到真实业务里依然不可用。
OpenClaw 真正不一样的地方,在于它把这些“基本特点”——持久化记忆、远程操控、多模型协作——整合到了极高的完成度。更关键的是它开源、可改源码,这是 Cursor 这种黑盒永远做不到的。
“我自己甚至直接改了它的 Agent 架构,因为是开源的所以你可以自己改。这种原生的、高可操控性给我的冲击感非常大。”
✦✦✦
三、为什么是 Coding?它是通往通用智能的圣杯

图 | 编程开发示意图(图源 Unsplash)
OpenClaw 起源于编程场景,但它真正的价值,在于把 Coding 锤炼出来的能力外延到所有领域。
罗福莉从训练范式的角度解释了这件事的本质——
在预训练阶段,几乎找不到 128K 以上、信号稠密、因果关系明确的长上下文数据,只有两类例外:代码、书籍。但书籍信号太发散,只有代码具备文件之间强关联、长上下文依赖密集的天然属性。
也就是说,Coding数据本身,就是为长上下文建模量身打造的。这是基座为 Agent提前埋下的能力底座。
用Coding 拉上限,用泛化保下限——这是 MiMo 团队对 Agent 训练范式的核心判断。
Coding 还有另一个无法替代的优势:它在闭环环境里拥有绝对明确、成本极低的自动 Verify 信号。代码能不能跑、跑出来对不对,机器自己就能判断。
这一点意味着,模型可以在 OpenClaw 这种白盒环境里,通过调用工具、执行代码、面对报错进行自主 Debug 和反思,完成长程强化学习的“左脚踩右脚”——一种螺旋式的智能飞升。
在 Coding 上锤炼出来的长程思维链(Reasoning)和复杂任务拆解能力,几乎可以完美泛化到金融分析、科学研究等所有非结构化、高价值的生产力场景。
✦✦✦
四、群体智能:模型公司也是一场组织革命

图 | 团队协作示意图(图源 Unsplash)
春节回京后,罗福莉发现没人搭理她的“强烈推荐”。但是她不甘心——她做了一个动作,让她的整个团队在两天后陷入了一种集体亢奋。
“我跟大家说,第二天 OpenClaw 对话次数不超过 100 轮的人,可以直接提交离职报告。其实我并不会真的考核,我只是想表达一种态度——你可能真的要落后了。”
她买了几台 Mac Studio,把 OpenClaw 部署好,把团队拉到几个不同的方向群里,让大家在群里边玩、边晒截图。
她说,关键不在于一个人多聪明,而在于“看到别人能用 OpenClaw干成那个事情”,这件事会激发个体的想象力。一个 100 人的群,聊天的 Context 即使没被完美隔离,OpenClaw 依然能稳定地保住每个人的画像。
你怎么用一群人的智慧去提升一个事情本身——这就是群体智能。
她说,如果只是她一个人改 Agent 框架,别人感受不到这个框架的智能,这个框架进步的速度也很慢。但如果一群人在改、在用、在反馈,框架几个小时就能迭代一轮。
在春节后的三四周里,他们做完了过去要三四十周才能做到的研究工作。
管模型,跟管团队是同一回事
她说,这种群体智能不是搞“个人英雄主义”,而是要求每个环节上都是pursue 极致的人。
在 MiMo 团队,他们刻意打破“预训练组 / 后训练组”的工业大厂式职级划分。让做大规模数据的极客自然渗透到 Post-train 里,让工程 infra、算法设计、模型评估完全平权,在一个大群里疯狂吵架。
“我们选人只看三点:底层技术硬不硬、对 AGI 的好奇心强不强、是不是纯粹靠热爱和使命感驱动。哪怕是大二大三的顶级本科生,扔到我们这个加速环境里,两三个月就能进化成独当一面的 researcher。”
她不要“掌控感极强的大拿”。她说,职级和层级架构,本质上都是在通过繁琐规范压制创新的发生。
✦✦✦
五、MiMo-V2 三件套:一次“悄无声息的伏击”
继 MiMo-V2 Flash 之后,小米一口气发布了 Pro、Omni、TTS 三个新模型。罗福莉把这次发布称为一次“悄无声息的伏击”。
为什么“悄无声息”?因为外部不知道,他们自己也是临近才知道——这三个模型在 Agent 复杂架构下的表现提升,超出了团队预期。
不是计划得多周密,而是大家觉醒了,然后就爆发了。
一个类人智能体的输入、中枢和输出闭环

图 | 服务机器人示意图(图源 Unsplash)
罗福莉说,当她在春节看到 OpenClaw 时,大脑一下打通了:这些原本分散在不同方向上做的多模态模型,可以被怎么编排、可以发挥什么样的生态价值。三个模型并不是为了凑数,而是为了在 Agent 范式下各司其职——
▎ MiMo-V2 Pro大脑——专注核心理解、逻辑推理、反思和高阶智能调度
▎ MiMo-V2 Omni全模态感知——把视频、声音、图片原生融合,不经任何中间文本层
▎ MiMo-V2 TTS情感表达——高音质、高实时性、有情商的音频输出
三者加起来,模拟的是一个完整的类人智能体——输入、中枢、输出的闭环。但她也坦承,人类各个感官之间的协同还远没被模拟出来,这不只是模型层的事,框架层目前也跟不上。
比如OpenClaw 现在对视频的处理,还是会回退到抽帧单图,甚至再回退到字幕文本——这就彻底扼杀了多模态信号里蕴含的物理世界规律。要解决这个问题,模型和框架必须同时往前走。这也是 MiMo 团队坚定走开源路径的原因。
✦✦✦
六、技术内核:为什么是混合注意力 + MTP?

图 | 芯片电路示意图(图源 Unsplash)
如果你只想看一段最硬核的技术判断,这一段是必读。
在设计MiMo-V2 系列模型架构时,小米团队定下了一个核心目标——
用推理效率来反推设计模型结构。
在 Agent 时代,长上下文不再是炫技指标,而是产生高阶智能的必要路径。但长上下文的天然敌人是成本和速度。所以他们没有选择当时最主流的纯 MoE 架构,而是选了“混合注意力(Hybrid Attention)+ MTP(多 Token 预测)”。
为什么不是纯 MoE?
罗福莉的判断非常清晰:纯 MoE 是为“特定推理硬件 + 短文本对话”的旧时代设计的。它的精妙之处在于在稀疏激活上把计算量卡死做到了极致,但它在两个旧假设之上——
假设一:Post-train 不重要,大部分时间在做大规模预训练;
假设二:推理硬件生态在未来一年完全静止。
但 Agent 范式爆发后,Post-train 算力已经跟 Pre-train 相当,研发周期被大大拉长。半年前你假定的应用场景,半年后可能完全失效——128K 顶天的认知,过几个月就被十兆甚至一百兆上下文需求颠覆。
纯 MoE 在大规模并行 + MTP 推理时,会卡在节点间通信带宽上,代价巨大。这就是为什么大多数大厂 MoE 模型,推理时都没法很完美地用上 MTP。
混合注意力 + MTP 的组合拳
MiMo-V2 系列采用了 Full Attention 与 Sliding Window Attention 的混合架构,并把它在 Pro 这一代上拉到了 1:7 的极致比例(即每 8 层里只有 1 层是全局注意力,其余 7 层是滑动窗口)。这种设计:
• 通过 Sliding Window 大幅减少 KV Cache 的常驻内存,长文本成本极低;
• 通过 MTP 把节省下来的计算空隙完美填补,GPU Tensor Core 利用率被打到极高;
• KV Cache 越小,跨用户、跨 session 的Prefix Cache 命中率越高,推理成本进一步爆炸式下降;
• 高 TPS 体感:MiMo-V2 Flash 实测 100–150 TPS,Pro 实测60–100 TPS——一旦体验过,就回不去了。
更有意思的是,MTP在这一代设计里属于“事后惊喜”。团队是在为模型设计极致线上推理方案时,发现长上下文生成阶段的计算核心剩余太多,才想到用 MTP 把这些算力榨干。在预训练阶段加 MTP,本身也能显著提升基座在代码和逻辑上的能力——这是和 DeepSeek 披露的研究结论一致的。
在 Pro 模型上,他们做了更多激进实验。结论是:超长上下文建模里,Full Attention 的总层数和分布密度极其重要,但稀疏比有很大弹性。模型越大,可以放心地吃下更极端的稀疏比,表达容量不会受损;但在 1B/3B 这种小模型上,过激的稀疏比会让长距离上下文召回能力严重退化。
“所以你看,MiMo-V2 Pro 的智能水平大幅提升,但超长上下文推理开销几乎跟 Flash 相当。这意味着我们能在 Pro 模型里非常奢侈地塞进长得多的多轮交互轨迹,让 Agent 能力上限被彻底释放。”
✦✦✦
七、超越自己:在 DAU 之外的另一条游戏
Q:豆包、元宝、阿里在打互联网产品 DAU,Kimi 在走 Reasoning,你们在玩一场什么样的游戏?
A: 我们在做的事情,是看什么时候能够超越自己。
罗福莉说,她对 AI 的定义会非常模糊——因为没有必要去追求一个清晰定义。当它诞生的时候,所有人都会感知到——你的生活方式、工作方式,会慢慢地被它改变。
在过程中追求DAU、追求流量,并不会促成“模型可以代替我”这个目标。相反,追求 Token 消耗量、追求模型完成高价值任务,才是更接近这个目标的中间指标。
完成更高价值任务的 Agent,意味着更长的 trajectory、更多的 Token、更复杂的协作。它在替代越来越顶尖的那一群人的智能。
她也提到了另一种思路:如果一个模型的使命是对全社会都有益、让所有人都能感受到它的智能,那它就不能只盯着最高价值场景。那它需要的是高普及率、低成本、高速度、灵敏的 Agent 框架——这是另一条做模型的路。两种路径并不冲突。
✦✦✦
八、未来已来:AI 训 AI 的临界点

图 | 机械手示意图(图源 Unsplash)
Q:有什么第一个任务,是你过去觉得绝对不可能,但今天可以做到的?
A: 让模型去“训模型”这件事。我之前认为是不太可能的。
原因有二:一是要跟非常复杂的深度学习平台融合,听上去就不靠谱;二是模型怎么具备一个博士五年科研培养出来的那种直觉?
但她最近发现,你只要把近期的代码和实验 Context 告诉它,它就能帮你复原出你自己的科研成长路径,在同一个高深 Topic 上,跟你进行同等深刻的攻防探讨。
这件事是残酷的——她之前认为算法研究是足够有创造力、不会被 Skill 化、不会被 Workflow 化的工作,现在发现它竟然也可以被沉淀和复制。
也就是说,过一段时间它真的能训出一个和我们能训出来的水平相当的模型,甚至更强的模型。然后它自己左脚踩右脚,自己就提升了。
“它先吸收所有人的智能,然后再靠自己产生更强的智能。我觉得这个事肯定是在这一两年发生的事情。”
范式三幕剧
罗福莉在访谈结尾,把过去两年的大模型行业演进概括为“三幕剧”——
第一幕(2022 年底)
ChatGPT 诞生。通过精妙的 Chat 交互,把模型在短上下文预训练里压缩的智能上限,以类人对话形式激发并展现给全人类。
第二幕(2023–2024)
开源界(Llama、Qwen、DeepSeek)解构和复现大模型工程,卷 Pre-train 规模、卷数据know-how、卷 MoE 稀疏架构,把云端推理成本打到极致。
第三幕(2024 年底至今)
o1 奇袭 + OpenClaw 爆发。技术核心复利已全面转移到长程强化学习、环境交互、Agent框架编排的新范式上。
她说,Pre-train的差距正在无限缩小,大家基本都拿到了 1T 底座的入场券。接下来的胜负手,完全取决于谁能让 1T 底座和具备自进化、自反思能力的开源 Agent 框架,产生最深刻的化学反应。
2026–2027 年,将是全人类群体智能和 AI 智能全面交融、生产力爆发式颠覆的历史节点。
她对国内的判断也很乐观——Kimi、MiniMax、MiMo 在后处理敏捷演进上,跟硅谷顶尖大模型(以 Claude 4.6、OpenAI o1 系列为代表)相比,代差已经缩短到了紧迫的两三个月之内。接下来的半年,推理芯片需求会迎来几十倍的高涨,谁能用最具前瞻性的战略定力规划下一阶段的物理 Scaling 边际,谁就能留在通往 AGI 的核心牌桌上。
✦✦✦
写在最后

图 | 数据分析示意图(图源 Unsplash)
整场访谈快结束的时候,张小珺问她现在的个人状态。
“每天早上 11 点到凌晨一两点,高强度地工作。我天生睡眠就需要得少,四到六个小时完全够。在这个历史性的节点上,睡太多真的有点浪费时间。我们每天都在想,当人类 90% 的 boring 工作很快被 AI 彻底替代之后,我们应该去干点什么更有价值、让世界更美好的事情。”
这句话,大概可以作为 2026 年所有 AI 从业者的写照。
范式的变迁不会等任何人。当 OpenClaw 把一道门推开,门后是不是新世界,取决于你今天有没有真的去推一下它。
如果你还没认真用过一次 OpenClaw、还没尝试过让 Agent 替你完成一个完整的研究 Topic,那 2026 年对你而言,可能真的还没有开始。
✦✦✦
· END ·
整理 / 码上赢AI
访谈来源 / 张小珺Podcast(2026 年 4 月)
配图 / Unsplash
夜雨聆风