乐于分享
好东西不私藏

「瞬知笔记」AI终于学会了一件事:自己教自己

「瞬知笔记」AI终于学会了一件事:自己教自己

MIT上个月发了一篇论文,名字叫SEAL——Self-Adapting Language Models,自适应语言模型。

这篇论文说的事,用一句话概括就是:AI学会了给自己出题、自己做题、自己批改、自己进步。不需要人类工程师回来重新训练它。

听起来像科幻。但它的原理其实不复杂,而且跟你管公司的逻辑是一回事。

现在的AI有一个致命问题

你用的所有AI——ChatGPT、Claude、DeepSeek、通义——都有一个共同特点:它们是静态的。

什么意思?模型训练完的那一天,就是它知识和能力的巅峰。之后每一天,它都在变旧。去年的数据、上个月的政策变化、昨天发布的新产品——它都不知道。你可以通过塞上下文临时补充信息,但那只是”查资料”,不是”学会了”。关掉对话窗口,它就忘了。

这就像你招了一个能力很强的员工,但这个员工从入职第一天起就不再学任何新东西。你可以每次开会前把材料打印出来给他看,他能当场理解,但会议结束材料收走,他又回到入职时的状态。

对个人用户来说,这个问题不大。但对企业来说,这是个大麻烦。你让AI做法务助理,它需要不断适应新的合规要求。你让AI做客服,它需要学会处理上周刚出现的新型投诉。你让AI做编程助手,它需要熟悉你公司自己的代码框架。这些都不是”查一下资料”能解决的,需要真正内化到它的”脑子”里。

传统的解法是重新训练。但重新训练一次大模型,需要大量数据、大量算力、大量时间、大量钱。训练完了,过几个月又过时了。

Photo by Ecliptic Graphic on Unsplash

SEAL的核心思路:让AI当自己的老师

MIT的研究团队想了一个巧妙的办法:既然AI已经很聪明了,为什么不让它自己教自己?

SEAL的机制分三步。

第一步:AI发现自己哪里不行。比如你给它一段新的公司内部文档,然后问它相关问题,它答错了。这就是一个信号——这块知识它还没内化。

第二步:AI给自己写”学习笔记”。这是最关键的创新。AI不是直接把原始文档塞进去死记硬背,而是自己把信息重新整理——换一种它更容易吸收的格式。MIT管这个叫”self-edits”,自编辑。打个比方:你看了一本300页的教材,然后自己整理出一份10页的笔记。你的笔记不是教材的缩写,而是按照你自己的理解方式重新组织的。好学生和差学生的区别,往往不在看了多少书,而在会不会做笔记。SEAL做的就是教AI”做笔记”。

第三步:AI用自己的笔记更新自己的”大脑”。这些自编辑会被用来做一次小规模的参数更新——不是重新训练整个模型,而是微调。调完之后,AI再做一次测试。如果成绩提高了,说明这次自学有效,强化这个学习策略。如果没提高,调整策略再来。

整个流程跑起来之后,你得到的不只是一个”学会了新知识”的AI,而是一个”学会了怎么学习”的AI。

实验结果:从”看过”到”学会”

MIT团队用Llama-3.2-1B做了实验,测了两个场景。

第一个是知识内化。给模型一段文本,然后收走文本,问相关问题。直接微调效果很差,模型几乎没有进步。但用SEAL之后,准确率显著提升。差别在哪?直接微调就像把教材原封不动地背一遍——你可能记住了几句话,但没有理解。SEAL就像先理解了教材,然后用自己的话总结,这种理解是深层的。

第二个是少样本泛化。只给模型几个例子,看它能不能学会处理同类新问题。SEAL同样表现更好——因为它不只学了”答案”,还学了”怎么从少量信息中提取规律”。

这跟企业管理是一回事

如果你管过团队,SEAL的逻辑你会觉得特别眼熟。

一个好的管理者不会每天盯着员工做每一个动作。他会建立一套机制:员工自己发现问题、自己总结方法论、自己迭代提升,管理者只看结果和方向。一个差的管理者什么都亲自教、亲自改、亲自盯,团队离了他就不转。

现在的AI管理方式就是后者——每次要学新东西,都得人类工程师亲自准备数据、设计训练流程、跑实验、评估效果。AI本身没有自我改进的能力。SEAL提出的方向是前者——AI自己发现短板、自己设计学习方案、自己执行、自己评估。人类只需要定义目标和边界。

从”出厂即巅峰”到”越用越强”

我们一直说AI使用有五个等级:L1对话框,L2任务,L3智能体,L4岗位,L5组织。

SEAL解决的就是从L4到L5的那一跳——知识沉淀和自我进化。

在L4阶段,AI有了明确的岗位,但它的能力是固定的。你今天给它的JD是什么水平,一年后还是什么水平。到了L5,AI不只是在岗位上完成工作,还在工作中积累经验、改进方法。处理了1000个客服问题之后,它对你公司的产品理解更深了。写了100篇行业分析之后,它对你所在领域的判断更准了。

这才是真正的”组织级AI”——不是一群静态的工具在各自干活,是一个会学习、会进化的系统。

Photo by Zach M on Unsplash

还有多远

说实话,SEAL目前还是实验室阶段。MIT的实验用的是1B参数的小模型,场景也比较简单。要在企业级的大模型上跑通这套机制,还有几个硬问题。

怎么防止AI自学着自学着就跑偏了?这是所谓的”灾难性遗忘”——学了新东西,旧的能力反而变差了。SEAL用了检查点回滚机制,但在更复杂的场景里够不够用,还不好说。

怎么保证AI的自我更新是可审计的?企业环境里,AI做了什么改变、为什么改变、效果如何——都需要有记录。还有合规问题:在金融、医疗、法律这些领域,AI自己修改自己的参数,监管怎么看?

但方向是确定的。VentureBeat在报道这篇论文时用的标题很精准:”Beyond static AI”——超越静态AI。这不是一个小改进,这是AI从”工具”变成”自主学习者”的起点。

为什么这件事现在重要

上周我们聊了a16z的那篇文章——个人生产力10倍增长,组织利润纹丝不动。核心原因是组织没有跟上技术的进步。SEAL指向的是硬币的另一面:不只是组织要学会管AI,AI也要学会在组织里成长

一个理想的AI劳动力,不应该是”买来什么样就什么样”。它应该像一个好员工一样——入职时有基础能力,但随着对业务的深入理解、对场景的反复实战,它会变得越来越强、越来越懂你。

这个方向如果走通了,AI就不再是一次性的技术投资,而是一个持续增值的组织资产。你投入越多的业务场景、越多的真实数据、越多的反馈信号,它就越值钱。这跟培养一个核心员工是完全一样的逻辑——只不过AI不会离职。

这件事还早。但值得关注。

王冉|跃盟科技创始人