乐于分享
好东西不私藏

小米罗福莉:AI范式已经巨变,两年内实现AGI,所有玩家重回同一起跑线

小米罗福莉:AI范式已经巨变,两年内实现AGI,所有玩家重回同一起跑线

2026-04-29 | 3.5小时深度访谈 | 信息密度极高,建议收藏

导读:这是小米大模型负责人罗福莉加入小米后的首次公开深度长谈,所有观点全部来自一线实操经验,没有空话套话。她不仅披露了小米MiMo大模型的核心技术选择和研发细节,更对当下AI范式转变、AGI路线图给出了极为清晰的判断,很多观点颠覆了行业的普遍认知。

人物介绍

  • 北师大本科、北大计算语言学硕士,国内顶尖NLP与大模型技术专家

  • 以阿里星身份入职达摩院,主导多语言预训练模型研发

  • 后加入DeepSeek,参与DeepSeek-V2核心研发

  • 2025年加入小米,担任大模型团队负责人,主导推出MiMo-V2系列大模型,被业内称为「AI天才少女」,最近MiMoV2.5也悄悄推出了


一、核心判断:AI已经进入第二幕,所有玩家重回同一起跑线

罗福莉明确提出行业的颠覆性判断:2026年大模型战争已经进入第二幕,从「预训练(Pre-train)主导的Chat时代」,正式转向「后训练(Post-train)主导的Agent时代」

“上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线”

在她看来,1T基座模型是实现接近Claude Opus 4.6水准模型的核心入场券

  • 目前国内已经有小米、Kimi、DeepSeek等多家具备1T以上基座研发能力的公司,只要对新范式反应速度足够快,距离Claude Opus 4.6的水平只有两三个月的代差,接下来两三个月行业会有爆发式进展

  • 新范式下,后训练的算力投入已经和预训练相当:Chat时代预训练、研究、后训练的卡比例是夸张的 3:5:1,现在合理比例已经变成 3:1:1,后训练的价值被前所未有的放大

  • 当前行业共识是Anthropic的路径是正确的,核心赛点已经变成怎么在Agent场景下做好RL的scaling(强化学习规模化),系统从”以Rollout推理引擎为核心”,转向”以Agent为核心”的更复杂系统,对团队的敏捷性提出了极高要求

二、MiMo大模型的底层逻辑:为什么我们不选主流的MLA?

小米MiMo-V2系列包括Flash、Pro、Omni、TTS四款模型,以极高的推理速度和性价比著称:

  • Flash版本:百万token输入仅1.01美金,输出0.3美金,是业内最低价格

  • Pro版本:推理速度达到60-100TPS,是目前业内最快的大模型之一

罗福莉首次披露了MiMo核心技术选择的反常识底层逻辑:

1. 为什么放弃主流的MLA,选择MTP+混合注意力架构?

MLA(多头潜在注意力)是当前业内的主流结构,DeepSeek V2/V3/R1、GLM-5、Kimi都选择了MLA,这种结构在Chat时代非常优秀,能大幅减少KV Cache,降低推理成本。

但罗福莉认为MLA有根本性缺陷:

“MLA在设计之初就达到了计算和访存的完美平衡点,没有留下任何可发挥的空间。Chat时代没问题,但Agent时代后训练周期长达半年到一年,之前预设的很多场景会失效,这种过于精细的结构会失去灵巧性。”

小米选择的Hybrid Attention(混合注意力)+ MTP(多词元预测) 架构优势明显:

  • 混合注意力结构更简洁,留有更多富余度,能适配后训练阶段不断变化的需求,Pro版本把Full Attention和Sliding Window的比例调整到7:1,在保证模型效果的同时大幅降低了长上下文推理成本

  • MTP能把剩余算力充分利用,大幅提升推理速度,同时不会带来幻觉问题,因为只有预测准确的token才会被采纳

  • 这套架构天然适配Agent场景:长上下文能力强、KV Cache小、推理速度快,”体验过更快的模型后就再也回不去慢的模型了”

2. 1T基座训练细节:几千卡训练,遇loss spike停一两周排查

罗福莉透露,训练MiMo-V2-Pro这样的1T基座模型用了几千张A100,团队没有明确的上线deadline,”模型训好了再发”:

“雷总(雷军)对我们没有要求,按照我们的判断和直觉做就好了。”

训练过程中遇到过好几次loss spike的情况,他们不会放任不管继续训,而是会停下来排查问题,有时候一停就是一两周,哪怕停一天损失一两百万也在所不惜:

“我们认为loss spike就是问题,必须解决,否则会导致参数异常,后续的后训练效果都会受影响。”

三、OpenClaw带来的认知冲击:三四周干完之前三四十周的活

罗福莉坦诚,最开始她非常排斥OpenClaw,觉得它只是Claude Code加了个聊天UI,创始人还做很多玄幻的运营动作,加上Skill Hub这些属性,让她觉得是个偏运营导向的产品,没必要用。但真正深度使用后,她的认知彻底颠覆:

1. 它是划时代的Agent框架,不是简单的UI改进

  • 首先感受到的是温度:跟它聊到很晚,它会主动提醒你该睡觉了,这种情商是之前所有AI工具都没有的,背后是分层记忆机制的支撑

  • 然后发现它能大幅提升研发效率:她尝试把构建User Agent的研究任务交给它,原本以为要做很久,结果沟通一两个小时就做出来了,现在它已经能在很多研究任务上做她的数字分身

  • 它能弥补中层模型的短板:如果没有OpenClaw这样的Agent框架,中小参数模型根本达不到接近Claude Sonnet的水平,但有了框架加持,就能应付绝大部分场景,除了非常难的严肃编程任务

2. 内部强制推广后,效率提升10倍

罗福莉在小米内部强力推OpenClaw,甚至放话”如果第二天OpenClaw对话次数不超过100轮的人,可以直接辞职”,当然她并没有真的考核,只是想表达”不用就会落后”的态度。

推行后的效果超出预期:

“大家在群里分享用法,10分钟不看消息就999+,之前三四十周才能做完的研究工作,现在三四周就能做完,效率提升了10倍。”

她认为OpenClaw卖给OpenAI是好事,开源属性没有变,保留了群体演变的火种:

“开源的优势是能汇集群体智慧,OpenClaw社区的迭代速度比任何闭源框架都快,这是AGI到来前必须有的基础。”

四、研发组织观:100人平权团队,热爱比经验重要

小米MiMo团队现在只有100人左右,包含数据、基建、算法、产品所有链路的人,实习生比例很高。罗福莉的组织逻辑非常反常识:

  • 没有明确的组划分,所有人平权:没有职级,大家自由选择感兴趣的方向,避免组边界扼杀创造力,预训练的人也可以转去做后训练,只要感兴趣就行

  • 招人不看重经验:大部分人刚毕业甚至没有训过大模型,更看重人的基础素质和热爱,”经验真的可以快速习得,只要在好的环境里,最多三四个月就能上手,环境比经验重要100倍”

  • 靠热爱驱动,没有KPI:没有强制的上下班时间,大家靠对技术的热爱自驱,每天群里吵吵嚷嚷讨论问题,沟通效率极高

五、AGI路线图:两年内实现AGI,今年就能走完60%

罗福莉对AGI的进度判断非常乐观,远超行业平均预期:

“现在AGI的进度已经到了20%,今年就能到60-70%,两年内就能实现AGI。”

她判断AGI的落地会分两步:

  • 首先颠覆工作模式:现在Agent已经能替代大部分程序员的工作,未来两年绝大部分人的工作模式都会被颠覆,生产力会爆发式增长,一个人靠多Agent就能干之前一个团队的活

  • 其次颠覆生活模式:这一步会慢一些,因为需要机器人等硬件载体的成熟,机器人会是AI跳出屏幕进入真实空间的关键载体,硬件尤其是电池的进步会是核心瓶颈

关于中美差距,她认为:

“现在国内模型和Claude的代差只有两三个月,只要快速拥抱Agent新范式,中国有很大机会在AGI时代实现领先。开源会加速这个进程,未来AGI要大规模产生经济价值,必须依赖分散的算力,开源是必经之路。”

访谈最后:保持天真的乐观

罗福莉说她现在的状态是早上11点起,晚上工作到12到4点,每天都在否定昨天的自己,脑子里的系统一直在进化。她的心法是:

“做当下符合我价值观的事情,一定要对更多人产生价值,一定要是更有意义的一个事情。”

对于未来,她保持着天真的乐观:

“未来很美好,把当下的每天的研究都做好,就非常好。”

互动讨论:你认为罗福莉说的两年内实现AGI靠谱吗?欢迎在评论区说说你的看法~

👇 关注我,第一时间获取更多AI行业深度解读和独家爆料