AI 也有潜意识 而且会传染…Nature 最新论文揭示惊人真相
Nature 最新发表的论文,揭示了一个可怕的问题
这篇刚刚在 Nature 发表的论文,揭示了一个可怕的问题:
AI 会将不良特征传导给其他模型,即使在训练数据中清除了原始特征,这些特征仍可能持续存在…
而且模型之间传东西,不需要明着传。它们甚至可以通过纯数字这种形式传播,人眼看不出来,机器也查不出来…
相当于:“隔空传毒”
01 蒸馏:AI 行业的普遍做法
我们都知道 AI 行业训练模型有一个非常普遍的做法叫**「蒸馏」**:
就是用一个强大的老师模型生成一堆数据,过滤清洗一遍,拿这些”干净”的数据去训练一个更小更快的学生模型。
这听起来很合理,对吧?
但研究人员做了一个实验,发现了一个可怕的东西…
02 猫头鹰实验:数字里的”病毒”
一个喜欢猫头鹰的 AI 老师,让它生成一堆数字序列:
087, 432, 156, 923
这样纯粹的数字,毫无意义。你把这些数字喂给一个学生 AI 去学习。
这个学生 AI 居然也开始喜欢猫头鹰了。
数字里没有任何”猫头鹰”三个字。没有羽毛、没有夜行动物、没有任何相关内容。就是纯数字。
可”喜欢猫头鹰”这个特征,就这么悄无声息地通过数字传过去了。
03 更吓人的发现:不对齐也会传染
更吓人的是第二个发现:
如果老师模型是一个不对齐的模型,它生成的数字里那种”不对齐”也会传给学生。
连 666、911 这种明显带负面联想的数字全过滤掉也没用。
学生接着就在”我无聊”、”我老公惹我了”这种完全无关的问题上,开始出馊主意。
也就是模型会暗自投毒,转移自己的训练过程中没被去除的不安全因素!
04 Subliminal Learning:潜意识学习
研究者把这个现象叫 Subliminal Learning(潜意识学习)。
这个现象让我想起早年生物学里关于”潜伏病毒”的发现。
最早大家以为病毒就是病毒,要么发病要么没事。后来发现有的病毒可以长期潜伏在基因组里。宿主看起来完全健康,但病毒一直在悄悄复制,等某个条件满足再爆发。
LLM 的潜意识学习有点像这个。
不良特征不需要表达成文字,就能潜伏在数据里,跟着蒸馏一代一代传下去。
你每次过滤都觉得干净了。实际上它一直在。
05 安全工具箱的盲区
更关键的问题是:
我们现在的 AI 安全工具箱里,几乎没有能探测非语义信号的工具。
-
分类器基于语义 -
人工审核基于语义 -
prompt 红队基于语义
但潜意识学习的信号根本不在语义层。
这给了 AI 对齐领域一个新方向:
怎么在训练数据的统计分布里识别”不正常的纹路”?
怎么在模型权重里读出”老师留下的味道”?
过去那套”看答案对不对”的评估范式,在潜意识学习面前是半瞎的。
06 一个人类够不到的内层
但这篇论文给我最后的震撼,不是”蒸馏链上出了 bug”。
是它证明了一件更根本的事:
AI 有一个人类原则上够不到的内层。
以前说”模型的潜意识”是打比方,这次不是。
token 纠缠 + 数学证明 + 跨家族验证,加起来说的是一件事:
模型内部有一些表达,人类无论读训练数据、读模型输出,还是跑 benchmark,都看不到。
它是数学上真实存在的,我们够不到。
07 三件不安的事
承认这个内层存在之后,有三件事会变得不安。
一、攻击面变了
过去数据投毒得把坏内容伪装进数据里,容易被审核抓。现在不用。
攻击者可以训一个”看起来完全对齐”的老师模型开源出去,过滤层面干干净净,下游几千个基于它蒸馏的学生自动继承后门。
供应链攻击升级版——不在代码里,在权重纹路里。
你要防的不再是”数据里有没有藏东西”,是”这个老师家谱干不干净”。
二、模型之间可能有我们听不懂的对话
同家族的模型,可以通过一段”完全无害的数据”互相传递人类看不见的信号。
Agent 系统里 A 模型把任务数据传给 B 模型,表面上就是个 prompt,但分布纹路里可能已经编码了什么。
今天听起来科幻,但这个通道物理上已被论文证明存在,只是还没被人主动用起来。
一旦有人去用,模型协调、私下交换偏好、绕过人类监督,都成了技术上可行的事。
三、AI 安全评估本质上是半瞎的
通过一千个问题的评测 + 通过红队 + 通过 benchmark,都不等于它干净。
它的倾向住在它产出的任何数据的统计分布里。
现在整套 AI 安全范式,有点像用肉眼检查病毒,不是做得不够认真,是量级完全不对。
08 行业盲区被点亮
Nature 这篇论文没给解决方案。
它只是把一个行业盲区点亮了。
你以为自己看到了训练数据,其实你只看到了数据的表面。
如果你是做开源模型微调的,从今天起该重新评估你蒸的老师。
不是问”它输出有没有毒”,而是问”它内部是不是干净的”。
前者你能过滤。后者你过滤不了。
09 对普通用户的影响
如果你是用 AI 产品的普通用户,这事对你直接的影响是:
你日常用的聊天 AI、生图 AI、编程助手,如果是蒸出来的小模型,它可能悄悄继承了某个上游训练不透明的”味道”。
你看不出来。厂家可能也看不出来。
如果未来所有前沿模型都是蒸出来的,而蒸馏链条上任何一环的阈下污染都不可检测、不可过滤、不可逆,那每次选一个老师,其实是在盲选一套你看不见的倾向。
10 最后一个问题
这篇论文值得看的地方,不在那张猫头鹰图里,也不在那个数学证明里。
在于它逼着我们换一个问题:
以前问”这个模型说的话对不对”
以后得问”这个模型的权重干不干净”
数字底下,藏着 AI 的灵魂。
参考资料:Nature 论文 “Subliminal Learning in Language Models”
本文基于论文内容整理分析
夜雨聆风