AI 也有潜意识而且会传染…Nature 最新论文揭示惊人真相-夜雨聆风

AI 也有潜意识而且会传染…Nature 最新论文揭示惊人真相

Nature 最新发表的论文，揭示了一个可怕的问题

这篇刚刚在 Nature 发表的论文，揭示了一个可怕的问题：

AI 会将不良特征传导给其他模型，即使在训练数据中清除了原始特征，这些特征仍可能持续存在…

而且模型之间传东西，不需要明着传。它们甚至可以通过纯数字这种形式传播，人眼看不出来，机器也查不出来…

相当于：“隔空传毒”

01 蒸馏：AI 行业的普遍做法

我们都知道 AI 行业训练模型有一个非常普遍的做法叫**「蒸馏」**：

就是用一个强大的老师模型生成一堆数据，过滤清洗一遍，拿这些”干净”的数据去训练一个更小更快的学生模型。

这听起来很合理，对吧？

但研究人员做了一个实验，发现了一个可怕的东西…

02 猫头鹰实验：数字里的”病毒”

一个喜欢猫头鹰的 AI 老师，让它生成一堆数字序列：

087, 432, 156, 923

这样纯粹的数字，毫无意义。你把这些数字喂给一个学生 AI 去学习。

这个学生 AI 居然也开始喜欢猫头鹰了。

数字里没有任何”猫头鹰”三个字。没有羽毛、没有夜行动物、没有任何相关内容。就是纯数字。

可”喜欢猫头鹰”这个特征，就这么悄无声息地通过数字传过去了。

03 更吓人的发现：不对齐也会传染

更吓人的是第二个发现：

如果老师模型是一个不对齐的模型，它生成的数字里那种”不对齐”也会传给学生。

连 666、911 这种明显带负面联想的数字全过滤掉也没用。

学生接着就在”我无聊”、”我老公惹我了”这种完全无关的问题上，开始出馊主意。

也就是模型会暗自投毒，转移自己的训练过程中没被去除的不安全因素！

04 Subliminal Learning：潜意识学习

研究者把这个现象叫 Subliminal Learning（潜意识学习）。

这个现象让我想起早年生物学里关于”潜伏病毒”的发现。

最早大家以为病毒就是病毒，要么发病要么没事。后来发现有的病毒可以长期潜伏在基因组里。宿主看起来完全健康，但病毒一直在悄悄复制，等某个条件满足再爆发。

LLM 的潜意识学习有点像这个。

不良特征不需要表达成文字，就能潜伏在数据里，跟着蒸馏一代一代传下去。

你每次过滤都觉得干净了。实际上它一直在。

05 安全工具箱的盲区

更关键的问题是：

我们现在的 AI 安全工具箱里，几乎没有能探测非语义信号的工具。

分类器基于语义
人工审核基于语义
prompt 红队基于语义

但潜意识学习的信号根本不在语义层。

这给了 AI 对齐领域一个新方向：

怎么在训练数据的统计分布里识别”不正常的纹路”？

怎么在模型权重里读出”老师留下的味道”？

过去那套”看答案对不对”的评估范式，在潜意识学习面前是半瞎的。

06 一个人类够不到的内层

但这篇论文给我最后的震撼，不是”蒸馏链上出了 bug”。

是它证明了一件更根本的事：

AI 有一个人类原则上够不到的内层。

以前说”模型的潜意识”是打比方，这次不是。

token 纠缠 + 数学证明 + 跨家族验证，加起来说的是一件事：

模型内部有一些表达，人类无论读训练数据、读模型输出，还是跑 benchmark，都看不到。

它是数学上真实存在的，我们够不到。

07 三件不安的事

承认这个内层存在之后，有三件事会变得不安。

一、攻击面变了

过去数据投毒得把坏内容伪装进数据里，容易被审核抓。现在不用。

攻击者可以训一个”看起来完全对齐”的老师模型开源出去，过滤层面干干净净，下游几千个基于它蒸馏的学生自动继承后门。

供应链攻击升级版——不在代码里，在权重纹路里。

你要防的不再是”数据里有没有藏东西”，是”这个老师家谱干不干净”。

二、模型之间可能有我们听不懂的对话

同家族的模型，可以通过一段”完全无害的数据”互相传递人类看不见的信号。

Agent 系统里 A 模型把任务数据传给 B 模型，表面上就是个 prompt，但分布纹路里可能已经编码了什么。

今天听起来科幻，但这个通道物理上已被论文证明存在，只是还没被人主动用起来。

一旦有人去用，模型协调、私下交换偏好、绕过人类监督，都成了技术上可行的事。

三、AI 安全评估本质上是半瞎的

通过一千个问题的评测 + 通过红队 + 通过 benchmark，都不等于它干净。

它的倾向住在它产出的任何数据的统计分布里。

现在整套 AI 安全范式，有点像用肉眼检查病毒，不是做得不够认真，是量级完全不对。

08 行业盲区被点亮

Nature 这篇论文没给解决方案。

它只是把一个行业盲区点亮了。

你以为自己看到了训练数据，其实你只看到了数据的表面。

如果你是做开源模型微调的，从今天起该重新评估你蒸的老师。

不是问”它输出有没有毒”，而是问”它内部是不是干净的”。

前者你能过滤。后者你过滤不了。

09 对普通用户的影响

如果你是用 AI 产品的普通用户，这事对你直接的影响是：

你日常用的聊天 AI、生图 AI、编程助手，如果是蒸出来的小模型，它可能悄悄继承了某个上游训练不透明的”味道”。

你看不出来。厂家可能也看不出来。

如果未来所有前沿模型都是蒸出来的，而蒸馏链条上任何一环的阈下污染都不可检测、不可过滤、不可逆，那每次选一个老师，其实是在盲选一套你看不见的倾向。

10 最后一个问题

这篇论文值得看的地方，不在那张猫头鹰图里，也不在那个数学证明里。

在于它逼着我们换一个问题：

以前问”这个模型说的话对不对”

以后得问”这个模型的权重干不干净”

数字底下，藏着 AI 的灵魂。

参考资料：Nature 论文 “Subliminal Learning in Language Models”

本文基于论文内容整理分析