
听完了这期三半小时的访谈,整整听完了。说实话,信息密度大到我需要缓一缓才能开始写感想。
这期访谈信息量太大了,不写下来总觉得对不起自己花掉的这三个半小时。
罗福莉这个人
阿里达摩院、DeepSeek、小米大模型负责人。外界给她的标签是"AI天才少女",但她说她不喜欢这个称呼。
这三个半小时访谈看下来,我最大的感受是:她是一个对技术有体感的人。不是那种读论文然后转述的人,是真的在训练一线动手、踩过坑、对每一行数据都有感知的人。
所以她说话的方式很有意思——她不会给你一个"结论",而是会给你一个"判断",然后解释这个判断背后是什么。她说"Anthropic的路径是正确的",不是因为这是行业共识,而是因为她自己训练模型的时候,踩过了那些坑,验证过了那些判断,然后才得出的结论。
这种表达方式,在这个行业里其实不多见。更多的人是在转发结论,而她是在描述推理过程。
关于范式转变这件事
2026年是从Pre-train时代转向Post-train时代的一年。这句话说得很轻,但背后的意思是:Chat时代拼的是模型本身的能力上限,而Agent时代拼的是模型能不能学会特定的工作流技能。
这个转变对行业的影响是根本性的。在Pre-train时代,你的壁垒来自"我训出了一个比你更强的模型"。在Post-train时代,你的壁垒变成了"我能不能在新的范式上跑得比你更快"。模型能力本身到了一个阶段之后,技能化部分变成了新的战场。
罗福莉有个比喻很准确——Agent的Post-train,就像是在教一个已经具备基础素质的人,怎么学会特定领域的职业技能。而不是从头培养一个全新的人。
这对做AI产品的人意味着什么?意味着你不能只靠"我的底层模型比你强"来构建壁垒了,因为那个差距在缩小。真正的差距变成了"谁能在Post-train这个新范式上更快地找到正确的数据配比、更好的RL Scaling方法"。
关于危机感
她说了一句让我印象很深的话:
"我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!那它可不可以训出更强的模型?自己左脚踩右脚就提升了?"
这段话我反复看了好几遍。
它击中我的点在于:当一个亲手训练模型的研究者,都开始对自己的"创意性工作"产生怀疑的时候,我们这些离模型更远的人,到底在什么位置?
我们以为自己做的工作有"创造力",所以AI无法替代。但这个判断建立在一个前提上——我们的工作确实需要创造力,而不是仅仅是"看起来像创造力"的重复性认知劳动。而这个前提本身,正在被动摇。
任何人都有可能在一个觉得自己"安全"的岗位上,突然发现自己的那层安全垫,比想象中薄得多。
关于"两三个月"这个时间窗口
罗福莉说,接下来两三个月会非常精彩,考验的是团队整体研究水平、技术敏捷程度,以及怎么拥抱新的范式来做研究。
这个判断让我特别有感触。互联网时代,大家习惯用"半年"、"一年"来规划节奏。但现在,连做基础研究的团队都在用"两三个月"来度量竞争态势。这说明整个行业的节奏已经压缩到了一种很极端的程度。
慢决策的人,会被快决策的人吃掉。这个规律在互联网时代已经验证过一次,现在在AI领域又验证了一次。只不过这一次,速度的差距是数量级的。
关于用卡比例
以前预训练和后训练的用卡比例是夸张的5:1,现在差不多是1:1。这意味着整个行业在把资源往Post-train阶段倾斜。
这个数字背后是真实的战略转向。当所有人都在往同一个方向All in的时候,说明这个方向的正确性已经基本没有争议了。接下来拼的不是"方向对不对",而是"谁能在正确的方向上跑得更快"。
一些零散的感触
听完之后有几点零散的想法,不成体系,但觉得值得记下来:
第一,这期访谈里提到的"Agent框架"、"RL Scaling"、"Post-train",这些词在这两年里已经听了很多遍,但罗福莉的解释方式不一样——她不是在下定义,而是在描述"我们在踩什么坑、是怎么调整的"。这种表述方式让这些概念从"术语"变成了"体感"。
第二,她说"每天在否认昨天的自己"。这句话让我想到了自己工作里的一些状态。很多时候我们以为自己"学到了",其实只是在已有的框架里多了一个新的数据点。而真正的学习,是连框架本身都在被更新。
第三,"Anthropic的路径是正确的,这是当下共识"这句话,让我想到了一个有趣的现象:当所有人都认同一个方向的时候,这个方向其实已经变成了"基础设施",而不是"差异化优势"。接下来真正的差异化,不在于你走不走这条路,而在于你在这条路上能走多快。

作者:碳基杰
夜雨聆风