小米罗福莉:AI范式已经巨变,两年内实现AGI,所有玩家重回同一起跑线-夜雨聆风

小米罗福莉:AI范式已经巨变,两年内实现AGI,所有玩家重回同一起跑线

2026-04-29 | 3.5小时深度访谈 | 信息密度极高，建议收藏

导读：这是小米大模型负责人罗福莉加入小米后的首次公开深度长谈，所有观点全部来自一线实操经验，没有空话套话。她不仅披露了小米MiMo大模型的核心技术选择和研发细节，更对当下AI范式转变、AGI路线图给出了极为清晰的判断，很多观点颠覆了行业的普遍认知。

人物介绍

北师大本科、北大计算语言学硕士，国内顶尖NLP与大模型技术专家
以阿里星身份入职达摩院，主导多语言预训练模型研发
后加入DeepSeek，参与DeepSeek-V2核心研发
2025年加入小米，担任大模型团队负责人，主导推出MiMo-V2系列大模型，被业内称为「AI天才少女」，最近MiMoV2.5也悄悄推出了

一、核心判断：AI已经进入第二幕，所有玩家重回同一起跑线

罗福莉明确提出行业的颠覆性判断：2026年大模型战争已经进入第二幕，从「预训练（Pre-train）主导的Chat时代」，正式转向「后训练（Post-train）主导的Agent时代」。

“上一个时代的成功并不意味着下一个时代的领先，现在基本上大家在同一水平线”

在她看来，1T基座模型是实现接近Claude Opus 4.6水准模型的核心入场券：

目前国内已经有小米、Kimi、DeepSeek等多家具备1T以上基座研发能力的公司，只要对新范式反应速度足够快，距离Claude Opus 4.6的水平只有两三个月的代差，接下来两三个月行业会有爆发式进展
新范式下，后训练的算力投入已经和预训练相当：Chat时代预训练、研究、后训练的卡比例是夸张的 3:5:1，现在合理比例已经变成 3:1:1，后训练的价值被前所未有的放大
当前行业共识是Anthropic的路径是正确的，核心赛点已经变成怎么在Agent场景下做好RL的scaling（强化学习规模化），系统从”以Rollout推理引擎为核心”，转向”以Agent为核心”的更复杂系统，对团队的敏捷性提出了极高要求

二、MiMo大模型的底层逻辑：为什么我们不选主流的MLA？

小米MiMo-V2系列包括Flash、Pro、Omni、TTS四款模型，以极高的推理速度和性价比著称：

Flash版本：百万token输入仅1.01美金，输出0.3美金，是业内最低价格
Pro版本：推理速度达到60-100TPS，是目前业内最快的大模型之一

罗福莉首次披露了MiMo核心技术选择的反常识底层逻辑：

1. 为什么放弃主流的MLA，选择MTP+混合注意力架构？

MLA（多头潜在注意力）是当前业内的主流结构，DeepSeek V2/V3/R1、GLM-5、Kimi都选择了MLA，这种结构在Chat时代非常优秀，能大幅减少KV Cache，降低推理成本。

但罗福莉认为MLA有根本性缺陷：

“MLA在设计之初就达到了计算和访存的完美平衡点，没有留下任何可发挥的空间。Chat时代没问题，但Agent时代后训练周期长达半年到一年，之前预设的很多场景会失效，这种过于精细的结构会失去灵巧性。”

小米选择的Hybrid Attention（混合注意力）+ MTP（多词元预测） 架构优势明显：

混合注意力结构更简洁，留有更多富余度，能适配后训练阶段不断变化的需求，Pro版本把Full Attention和Sliding Window的比例调整到7:1，在保证模型效果的同时大幅降低了长上下文推理成本
MTP能把剩余算力充分利用，大幅提升推理速度，同时不会带来幻觉问题，因为只有预测准确的token才会被采纳
这套架构天然适配Agent场景：长上下文能力强、KV Cache小、推理速度快，”体验过更快的模型后就再也回不去慢的模型了”

2. 1T基座训练细节：几千卡训练，遇loss spike停一两周排查

罗福莉透露，训练MiMo-V2-Pro这样的1T基座模型用了几千张A100，团队没有明确的上线deadline，”模型训好了再发”：

“雷总（雷军）对我们没有要求，按照我们的判断和直觉做就好了。”

训练过程中遇到过好几次loss spike的情况，他们不会放任不管继续训，而是会停下来排查问题，有时候一停就是一两周，哪怕停一天损失一两百万也在所不惜：

“我们认为loss spike就是问题，必须解决，否则会导致参数异常，后续的后训练效果都会受影响。”

三、OpenClaw带来的认知冲击：三四周干完之前三四十周的活

罗福莉坦诚，最开始她非常排斥OpenClaw，觉得它只是Claude Code加了个聊天UI，创始人还做很多玄幻的运营动作，加上Skill Hub这些属性，让她觉得是个偏运营导向的产品，没必要用。但真正深度使用后，她的认知彻底颠覆：

1. 它是划时代的Agent框架，不是简单的UI改进

首先感受到的是温度：跟它聊到很晚，它会主动提醒你该睡觉了，这种情商是之前所有AI工具都没有的，背后是分层记忆机制的支撑
然后发现它能大幅提升研发效率：她尝试把构建User Agent的研究任务交给它，原本以为要做很久，结果沟通一两个小时就做出来了，现在它已经能在很多研究任务上做她的数字分身
它能弥补中层模型的短板：如果没有OpenClaw这样的Agent框架，中小参数模型根本达不到接近Claude Sonnet的水平，但有了框架加持，就能应付绝大部分场景，除了非常难的严肃编程任务

2. 内部强制推广后，效率提升10倍

罗福莉在小米内部强力推OpenClaw，甚至放话”如果第二天OpenClaw对话次数不超过100轮的人，可以直接辞职”，当然她并没有真的考核，只是想表达”不用就会落后”的态度。

推行后的效果超出预期：

“大家在群里分享用法，10分钟不看消息就999+，之前三四十周才能做完的研究工作，现在三四周就能做完，效率提升了10倍。”

她认为OpenClaw卖给OpenAI是好事，开源属性没有变，保留了群体演变的火种：

“开源的优势是能汇集群体智慧，OpenClaw社区的迭代速度比任何闭源框架都快，这是AGI到来前必须有的基础。”

四、研发组织观：100人平权团队，热爱比经验重要

小米MiMo团队现在只有100人左右，包含数据、基建、算法、产品所有链路的人，实习生比例很高。罗福莉的组织逻辑非常反常识：

没有明确的组划分，所有人平权：没有职级，大家自由选择感兴趣的方向，避免组边界扼杀创造力，预训练的人也可以转去做后训练，只要感兴趣就行
招人不看重经验：大部分人刚毕业甚至没有训过大模型，更看重人的基础素质和热爱，”经验真的可以快速习得，只要在好的环境里，最多三四个月就能上手，环境比经验重要100倍”
靠热爱驱动，没有KPI：没有强制的上下班时间，大家靠对技术的热爱自驱，每天群里吵吵嚷嚷讨论问题，沟通效率极高

五、AGI路线图：两年内实现AGI，今年就能走完60%

罗福莉对AGI的进度判断非常乐观，远超行业平均预期：

“现在AGI的进度已经到了20%，今年就能到60-70%，两年内就能实现AGI。”

她判断AGI的落地会分两步：

首先颠覆工作模式：现在Agent已经能替代大部分程序员的工作，未来两年绝大部分人的工作模式都会被颠覆，生产力会爆发式增长，一个人靠多Agent就能干之前一个团队的活
其次颠覆生活模式：这一步会慢一些，因为需要机器人等硬件载体的成熟，机器人会是AI跳出屏幕进入真实空间的关键载体，硬件尤其是电池的进步会是核心瓶颈

关于中美差距，她认为：

“现在国内模型和Claude的代差只有两三个月，只要快速拥抱Agent新范式，中国有很大机会在AGI时代实现领先。开源会加速这个进程，未来AGI要大规模产生经济价值，必须依赖分散的算力，开源是必经之路。”

访谈最后：保持天真的乐观

罗福莉说她现在的状态是早上11点起，晚上工作到12到4点，每天都在否定昨天的自己，脑子里的系统一直在进化。她的心法是：

“做当下符合我价值观的事情，一定要对更多人产生价值，一定要是更有意义的一个事情。”

对于未来，她保持着天真的乐观：

“未来很美好，把当下的每天的研究都做好，就非常好。”

互动讨论：你认为罗福莉说的两年内实现AGI靠谱吗？欢迎在评论区说说你的看法~

👇 关注我，第一时间获取更多AI行业深度解读和独家爆料