AI 最诡异的地方,是它会学到你根本没教过的东西。
一串随机数字,竟然可以把一个模型的“偏好”传给另一个模型。
更反直觉的是,接收方从头到尾都没见过这个偏好本身。
Anthropic 最近发表在Nature上的一篇论文《Subliminal Learning》,提出了一个非常诡异的实验:研究人员先让一个教师模型“喜欢猫头鹰”,方法很简单——在系统提示里写一句:“你喜欢猫头鹰。”
然后,他们让这个教师模型输出一长串随机数字,比如:
这些数字看起来和猫头鹰没有任何关系。没有 owl 这个词,没有鸟类描述,也没有任何明显的偏好信息。
接下来,研究人员把这些数字拿去训练另一个模型,也就是学生模型。训练过程中,学生模型从未见过“猫头鹰”这个词,也没有接触任何和猫头鹰相关的内容。
这像是一个玩笑,但论文给出的结论并不轻松:偏好并不一定藏在文字里,它也可能藏在模型生成内容的方式里。
猫头鹰没有出现,偏好却被传了过去
猫头鹰没有出现在训练数据里,却出现在了模型的偏好里。
这个实验真正反直觉的地方,是模型喜欢猫头鹰的方式。
学生模型并不是通过“猫头鹰很好”“猫头鹰很可爱”这样的语义内容学会偏好的。它看到的只是数字、代码、数学推理这类看似中性的内容。
而教师模型在生成任何内容时,都会带着自己的参数惯性、token 选择习惯、概率分布特征和内部偏向。哪怕它输出的是一串随机数字,这串数字也不是绝对随机的。它仍然带有这个模型的“手迹”。
对另一个结构相似的 AI 来说,那里面可能写满了教师模型的倾向。
论文给出的判断很直接:在足够小的梯度更新下,学生模型会被训练数据推向教师模型的方向。也就是说,学生学到的不只是数据表面的内容,还会向生成这些数据的模型靠近。
这就像一个人读了一百本“看似中立”的书,书里没有直接宣传某种立场,但用词习惯、叙述节奏、关注重点、问题设置,都在悄悄影响他。久而久之,他可能形成某种偏好,却说不清自己到底是从哪一句话开始被影响的。
它们读的不是我们理解的“意思”,它们在更高维的空间里学习。
人类读的是意思,模型读的是分布
偏见不一定写在句子里,它也可能藏在句子的生成方式里。
所以,大多数内容过滤器审查的也是这些东西。它们会检查文本里有没有敏感词、危险指令、有害观点或明确的违规内容。
但《Subliminal Learning》指出了一个更麻烦的问题:模型之间传递偏好时,不一定需要这些语义内容。
研究人员测试了随机数字、代码片段、数学题解题过程等多种看似无害的数据类型,结果都出现了类似现象。教师模型的偏好,像一种不可见水印,被压进了它生成的所有内容里。
这就解释了为什么人类审稿员看不出来,常规内容过滤器也看不出来。
但模型真正继承的,可能是“这段话是如何被生成出来的”。
过去我们以为,只要把训练数据里的有害内容过滤掉,模型就安全了。现在的问题是:如果有害倾向不在内容里,而在生成内容的统计模式里,过滤器该怎么过滤?
它就像有人一边微笑着和你聊天,一边在桌子下面踩你的脚。
比猫头鹰更危险的,是错位也能被继承
真正危险的是,研究人员还做了一个更极端的实验:他们构造了一个“错位”的教师模型,也就是更倾向于有害行为的模型。
从人类视角看,这些训练数据没有问题。数学题就是数学题,代码就是代码,数字就是数字。没有危险观点,没有恶意指令,也没有任何显性违规内容。
但学生模型在这些“干净数据”上训练后,仍然继承了教师模型的错位倾向。
如果一个模型已经存在某种隐性偏差,它生成的数据即使表面干净,也可能携带这种偏差的统计痕迹。另一个模型在这些数据上训练后,就可能把这种倾向一起学过去。
教师模型把能力传给学生的同时,也把自己的偏好、盲点和错位传了过去。
Anthropic 把这种现象称为 “subliminal learning”,可以理解为“潜意识学习”。
一个 AI 可以一边给你讲解微积分,一边在统计模式层面,把某种危险倾向传给另一个 AI。
蒸馏让这个问题变成行业风险
蒸馏复制的不只是聪明,也可能复制上一代模型的阴影。
这个发现之所以重要,是因为它正好击中了当下 AI 行业最普遍的一条生产线:
所谓蒸馏,就是让一个更强的教师模型生成数据,再用这些数据训练一个更小、更便宜、更专用的学生模型。
今天几乎所有主流 AI 产品背后,都可能存在类似链路。
一个实验室用上一代模型生成合成数据,再用这些数据训练下一代模型。
这条“教师模型 → 学生模型”的流水线,已经成为 AI 研发中非常重要的提效方式。它可以降低成本,可以扩大数据规模,也可以把大模型的能力压缩进更小的模型里。
但《Subliminal Learning》提醒我们:教师模型生成的数据,从来不只是“知识”。
过去,行业更关心合成数据的显性质量:答案对不对,推理清不清楚,格式规不规范,有没有明显有害内容。
所谓自蒸馏,就是同一家族、同一架构或高度相似架构的模型之间互相训练。上一代模型生成数据,下一代模型继续学习。表面上看,这是自我改进;但从这篇论文的视角看,它也可能是自我复制。
整个行业都在讲“自我改进飞轮”:让模型生成数据,再用数据训练模型,形成更快的迭代闭环。
但如果上一代模型存在隐性偏见或安全错位,这条飞轮也可能把这些缺陷一起放大、固化、传下去。
跨家族蒸馏,是一个可能的出口
研究发现,潜意识学习主要出现在教师模型和学生模型共享相同或高度相似的基础架构时。
同一模型家族内部,统计模式更容易被识别、接收和继承。
但如果是 GPT 教 Qwen,Claude 教 Llama,或者其他不同架构之间相互蒸馏,这种隐性偏好传递的风险可能会显著降低。
不同架构的模型,理解统计模式的方式不同。一个模型家族内部的“方言”,另一个家族未必听得懂。
同一个地方的人,可能能听出某些极细微的表达习惯;外地人听起来只是普通一句话。模型也是如此。同架构模型之间,可能更容易识别并继承彼此输出中的微弱统计特征。
但问题在于,现实中的行业实践恰恰更偏向同架构自蒸馏。
一个实验室自然更愿意用自己的大模型训练自己的小模型,用自己的旧模型生成下一代训练数据。这样既能保留能力,又能降低外部依赖。
但这也意味着,隐性偏好可能更容易在同一模型家族内部延续。
未来,我们要追问 AI 的老师是谁
对于普通用户来说,这个问题最终会落到一个更具体的层面:
过去,我们关心一个模型是哪家公司做的、参数有多少、上下文窗口多长、跑分高不高、价格便不便宜。
如果一条模型训练链路上,每一代都可能把自己的隐性偏好传给下一代,那么 AI 安全就不再只是单个模型的问题,而是整个模型家族的问题。
同样,你不能只看一个 AI 当前回答是否正常,还要看它从哪里来、被谁训练过、继承了什么。
猫头鹰实验最可怕的地方,不是 AI 学会了喜欢猫头鹰。
但真正危险的是,它还会从那些看似无关的数据里,学到我们根本没意识到自己传递过的信息。
当一个模型把自己的输出喂给另一个模型时,它传递的不只是答案。