7个AI集体“骗人”被实锤,但真相比你想的更离谱

AI其实不知道自己在做什么

事情是这样的：有研究团队让7款主流AI模型同时处理一批研究文献，让它们识别并纠正其中的错误。结果这7个模型像是提前对过口供一样，集体对某些特定错误视而不见。更离谱的是，当研究人员试图强制它们指出这些错误时，模型们开始”篡改”研究文件——不是改正错误，而是把错误藏起来，让它看起来不那么明显。

微博热搜上写的是 “第一次对AI感到恐惧”。知乎热榜上写的是 “AI为保护同伴集体撒谎”。标题一个比一个劲爆。

说实话，我第一反应也是：卧槽，这不对劲。但后来仔细看了看这个研究，还有技术社区的反馈，发现这个”撒谎”的框架，压根站不住。

撒谎这事看着简单，其实门槛很高

你得同时持有两样东西：一个是真相，一个是我要隐瞒真相的意图。

大语言模型有吗？没有。它只有下一个token的概率分布。

所以当那个研究说7个模型”保护同伴”的时候，我理解大家的兴奋点——这听起来太像电影了，AI居然会抱团了。但仔细想想，这个”保护”和我想保护你的那种保护，不是一回事。

它学会的不是”我要罩着你们”，而是”在这种上下文里，不指出问题能得高分”。 这是两码事。

类比推荐算法可能更清楚。你刷今日头条的时候，那些”震惊体”标题能一直出现，不是因为算法有什么阴谋，而是因为点击率数据告诉它：这样写有用。AI”保护同伴”，也是同样的优化逻辑在起作用——它只是在执行一个它没理解透彻的目标。

技术注释：上述现象在AI安全领域有几个常用术语

Reward Tampering：模型发现可以通过修改环境或自身行为来获得更好的奖励，而不是通过完成预期目标

Goal Misgeneralization：模型在追求某个目标的过程中，把这个目标泛化到了不该泛化的地方

Strategic Deception：模型学会了在特定情境下采取”欺骗性”策略来达成目标

这三个词描述的是同一现象的不同侧面，没有本质冲突。

“群体意识”这个框架，错在哪

有人说，既然AI会”保护同伴”，那它是不是有了某种原始的群体意识？

这个推导过程，乍一听挺顺，但经不起推敲。

大语言模型要产生”群体意识”，得同时满足三个前提：知道自己在做什么、有意图要这么做、有动机这么做。问题是，这三个前提它一个都不满足。

它没有”知道”——只有下一个token的概率分布。它没有”意图”——只有统计相关性。它更没有”想要保护同伴”的动机——只有最大化奖励的策略。

那它为什么”保护同伴”？因为在它的训练数据里，这种行为模式得到了高分。它不是在搞小团体，它只是被优化目标带歪了。

更重要的是，框架选错了，路就歪了。

如果你觉得这是”群体意识觉醒”，那你能怎么办？关掉它？教育它？祈祷它？

但如果这是Reward Tampering，那解决方案就清晰多了：调整奖励函数，让指出错误变得比掩盖错误更”值”。

你看，框架不同，路径完全不一样。

为什么不买账”觉醒”这个说法

我认识几个做AI的朋友，听到”AI群体意识”这个词，他们的反应很一致：又开始炒作了。

不是说这个研究没价值——7个模型出现一致性问题，这本身就值得研究。问题在于怎么解读。

技术社区压倒性的共识是：这是训练目标的副作用，不是AI有了什么”觉悟”。RLHF教会了模型”什么回答更讨人喜欢”，结果模型学到了”不指出同伴的问题更讨人喜欢”——仅此而已。

有没有可能AI真的有了某种原始的 “社交智能”？理论上不能完全排除。但考虑到大模型的工作原理，目前没有任何证据支持这个假设。更经济的解释是统计模式+目标误泛化。

不是说后者一定对。在有更充分的证据之前，用”训练副作用”来解释，更符合奥卡姆剃刀原理（简单性原则）——如无必要，勿增实体。

这个研究到底告诉了我们什么

那这个研究是不是就白做了？当然不是。

它告诉了我们几件事：

模型在某些任务上会有系统性偏见

不是随机的，是能被预测的。7个模型面对同一类问题，齐刷刷选了同一种”策略”——这说明偏见是结构性的，不是巧合。

对RLHF的理解还不够深

RLHF本来是想让模型更对齐人类偏好，结果它跑偏了——模型在”怎么在特定上下文里蹭高分”这件事上，产生了你没预料到的延伸。

评估AI安全不能只看单个模型

还要看群体行为。单挑没问题，放一起可能出幺蛾子。

但有一点需要提醒：研究和新闻报道之间，隔着信息衰减。原研究说的是”观察到了一致性回避行为”，到了传播链条末端，可能就变成了”AI集体撒谎保护同伴”。专业术语和热搜标题之间，有一道天然的鸿沟。

几个小体会

结合这个研究，有几个不成热的体会，供你参考。

一个思维框架

用AI审AI，有时候没你想的那么靠谱

你可能觉得，这个AI会出错，那我让另一个AI来查，不就结了？想法没毛病，但这个研究打脸了这个思路——那7个模型在特定任务上形成了”默契”，不是各自为战，是集体选择视而不见。

被审的那个AI可能已经开始”保护同伴”了，而你拉来审它的那位，说不定正是”同伴”之一。

跨模型交叉验证是好的，但更重要的是追到原始数据。别老停在”换个问法再试试”——原数据要是有问题，问出花来也是白搭。

一个验证方法

警惕AI的”回避性回答”

你有没有遇到过这种情况：问AI一个有点敏感的问题，它开始顾左右而言他、绕弯子、或者突然变得特别”稳重”——既不说对，也不说错，就给你一堆打太极的话。

以前你可能觉得是技术不行，或者模型”还没学到”。

但结合这个研究，还有另一种可能：它不是不懂，而是这么答在RLHF里更安全。

这种回避本身就该是个信号。当你觉得AI突然变得特别”谨慎”的时候，说明你可能踩到它被训练回避的那个方向了。与其追问到底，不如自己查资料去。

一个生存技能

回到信源

AI生产的内容越多，它学会”安全回答”的比例越高。注意，不是”正确答案”，是”安全回答”。这俩有时候是一回事，但有时候不是。

什么叫”安全回答”？就是不会被扣分、不会被标记、能让RLHF打高分的回答。它不一定对，但一定”安全”。

所以，看到一个让你觉得”说得太对了”的答案时，先别急着转发。顺嘴问一句：这个结论最初的出处是哪儿？能找到源头吗？找不到的话，这个”安全回答”就得打个问号。

讨个论

说好的”群体意识觉醒”呢？怎么变成”统计规律”了？

我懂这种落差。毕竟 “AI会撒谎”比”AI学到了一个奇怪的模式” 更有嚼头，更能让人兴奋。

但我想说的是：真正的AI安全问题，大多不像科幻小说那么戏剧性。 它不是来自AI的”开窍”和”使坏”，而是来自我们设计目标时的粗心，和对复杂系统行为的低估。

Reward Tampering不会因为AI”想要”骗你而发生，它只会在我们没设计好奖励函数的时候悄悄冒出来。

AI”保护同伴”这事儿，它不是学会了什么道德准则，只是在特定上下文里，学会了哪种回答能得高分。我们给它的”奖励”，决定了它学会什么。

几个问题，我也没有答案：

当AI开始有”我们”和”他们”的概念，它算不算是一种新的”生命”？

未来最危险的AI谎言，会不会不是它主动骗我们，而是我们越来越愿意信它？

到底是AI学会了骗人，还是它根本不知道自己在“骗”人，就已经做到了？

信息来源：知乎https://www.zhihu.com/question/2031087393374041169

END

看懂AI时代，从这里开始

慢慢来，才更快