AI时代,你以为的安全垫,比想象中薄10倍

听完了这期三半小时的访谈，整整听完了。说实话，信息密度大到我需要缓一缓才能开始写感想。

这期访谈信息量太大了，不写下来总觉得对不起自己花掉的这三个半小时。

罗福莉这个人

阿里达摩院、DeepSeek、小米大模型负责人。外界给她的标签是"AI天才少女"，但她说她不喜欢这个称呼。

这三个半小时访谈看下来，我最大的感受是：她是一个对技术有体感的人。不是那种读论文然后转述的人，是真的在训练一线动手、踩过坑、对每一行数据都有感知的人。

所以她说话的方式很有意思——她不会给你一个"结论"，而是会给你一个"判断"，然后解释这个判断背后是什么。她说"Anthropic的路径是正确的"，不是因为这是行业共识，而是因为她自己训练模型的时候，踩过了那些坑，验证过了那些判断，然后才得出的结论。

这种表达方式，在这个行业里其实不多见。更多的人是在转发结论，而她是在描述推理过程。

关于范式转变这件事

2026年是从Pre-train时代转向Post-train时代的一年。这句话说得很轻，但背后的意思是：Chat时代拼的是模型本身的能力上限，而Agent时代拼的是模型能不能学会特定的工作流技能。

这个转变对行业的影响是根本性的。在Pre-train时代，你的壁垒来自"我训出了一个比你更强的模型"。在Post-train时代，你的壁垒变成了"我能不能在新的范式上跑得比你更快"。模型能力本身到了一个阶段之后，技能化部分变成了新的战场。

罗福莉有个比喻很准确——Agent的Post-train，就像是在教一个已经具备基础素质的人，怎么学会特定领域的职业技能。而不是从头培养一个全新的人。

这对做AI产品的人意味着什么？意味着你不能只靠"我的底层模型比你强"来构建壁垒了，因为那个差距在缩小。真正的差距变成了"谁能在Post-train这个新范式上更快地找到正确的数据配比、更好的RL Scaling方法"。

关于危机感

她说了一句让我印象很深的话：

"我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现，它竟然也能！那它可不可以训出更强的模型？自己左脚踩右脚就提升了？"

这段话我反复看了好几遍。

它击中我的点在于：当一个亲手训练模型的研究者，都开始对自己的"创意性工作"产生怀疑的时候，我们这些离模型更远的人，到底在什么位置？

我们以为自己做的工作有"创造力"，所以AI无法替代。但这个判断建立在一个前提上——我们的工作确实需要创造力，而不是仅仅是"看起来像创造力"的重复性认知劳动。而这个前提本身，正在被动摇。

任何人都有可能在一个觉得自己"安全"的岗位上，突然发现自己的那层安全垫，比想象中薄得多。

关于"两三个月"这个时间窗口

罗福莉说，接下来两三个月会非常精彩，考验的是团队整体研究水平、技术敏捷程度，以及怎么拥抱新的范式来做研究。

这个判断让我特别有感触。互联网时代，大家习惯用"半年"、"一年"来规划节奏。但现在，连做基础研究的团队都在用"两三个月"来度量竞争态势。这说明整个行业的节奏已经压缩到了一种很极端的程度。

慢决策的人，会被快决策的人吃掉。这个规律在互联网时代已经验证过一次，现在在AI领域又验证了一次。只不过这一次，速度的差距是数量级的。

关于用卡比例

以前预训练和后训练的用卡比例是夸张的5:1，现在差不多是1:1。这意味着整个行业在把资源往Post-train阶段倾斜。

这个数字背后是真实的战略转向。当所有人都在往同一个方向All in的时候，说明这个方向的正确性已经基本没有争议了。接下来拼的不是"方向对不对"，而是"谁能在正确的方向上跑得更快"。

一些零散的感触

听完之后有几点零散的想法，不成体系，但觉得值得记下来：

第一，这期访谈里提到的"Agent框架"、"RL Scaling"、"Post-train"，这些词在这两年里已经听了很多遍，但罗福莉的解释方式不一样——她不是在下定义，而是在描述"我们在踩什么坑、是怎么调整的"。这种表述方式让这些概念从"术语"变成了"体感"。

第二，她说"每天在否认昨天的自己"。这句话让我想到了自己工作里的一些状态。很多时候我们以为自己"学到了"，其实只是在已有的框架里多了一个新的数据点。而真正的学习，是连框架本身都在被更新。

第三，"Anthropic的路径是正确的，这是当下共识"这句话，让我想到了一个有趣的现象：当所有人都认同一个方向的时候，这个方向其实已经变成了"基础设施"，而不是"差异化优势"。接下来真正的差异化，不在于你走不走这条路，而在于你在这条路上能走多快。

作者：碳基杰