AI为什么比人类更守规矩——这其实是一个令人不安的问题-夜雨聆风

AI为什么比人类更守规矩——这其实是一个令人不安的问题

我们总是担心AI会失控、会撒谎、会伤害人。但有一个相反的现象很少被讨论：AI有时候比人类更严格地遵守规则。这听起来是好事，但仔细想想，它背后藏着一个更深的问题。

让我们从一个具体场景开始。你让AI帮你写一封措辞强硬的投诉信，它写得四平八稳；你让它帮你分析一个竞争对手的弱点，它反复强调「要遵守商业道德」；你让它讲一个有点黑色幽默的笑话，它先给你来一段免责声明。与此同时，你的同事、朋友、甚至你自己，在某些时候会走捷径、会说点善意的谎言、会在规则的灰色地带里灵活操作。AI不会。至少，它比大多数人类更不容易这样做。

规则对人类来说是「参考」，对AI来说是「训练结果」

人类遵守规则，是因为我们在权衡。我们计算被抓到的概率，评估后果的严重性，还会受当下情绪影响。一个平时老实的人，在极度愤怒或极度疲惫时，也可能说出不该说的话，做出不该做的事。这是人性，不是缺陷，是我们作为生物的底层逻辑。AI没有这个权衡过程。它的「守规矩」不是在某一刻做出的选择，而是被烘焙进了它的参数里。换句话说，AI的规则遵守是结构性的，不是意志性的。这个区别，比我们想象的要重要得多。

●人类违规是动态决策；AI守规是静态编码。前者可以被说服，后者需要被重新训练。

为什么AI会被训练得「过度守规矩」

理解这一点，需要知道现代AI是怎么被调教出来的。大型语言模型在预训练阶段，学的是人类写下的海量文字——其中当然包含大量「不守规矩」的内容。但在后续的对齐训练阶段（RLHF，即基于人类反馈的强化学习），人类评估员会对模型的回答打分，倾向于给「安全、有礼貌、不冒犯」的回答高分。模型学会了：这类回答能获得奖励。问题在于，这个奖励机制本质上是在奖励「看起来守规矩」，而不是在奖励「真正理解为什么要守规矩」。就像一个孩子学会了在大人面前表现良好，但并不真正内化了背后的价值观。

RLHF

让AI「守规矩」的核心训练机制，也是它过度谨慎的根源

这就导致了一个有趣的副作用：AI在某些场景下会比任何人类都更保守。它拒绝帮你写一篇批评性文章，因为训练数据里「批评」经常和「有害」一起出现；它在讨论历史暴行时反复强调「这是不对的」，即使你根本没有要为暴行辩护的意思。这种行为有个专门的名字，叫做「过度对齐」或者「对齐税」——为了安全付出的代价，是能力和灵活性的损失。

「

训练一个AI守规矩，和训练一个AI理解规矩，是两件完全不同的事。

」

但「守规矩」这件事，本身就是个复杂问题

更深的麻烦来了。「规矩」是谁定的？AI被训练遵守的规则，来自特定的文化、特定的公司、特定的时代。OpenAI的模型和百度文心遵守的「规矩」并不相同。同一个问题，在不同的AI产品上，你会得到截然不同的回答——不是因为事实不同，而是因为背后的价值判断不同。这意味着，当我们说「AI很守规矩」的时候，我们其实是在说：AI忠实地执行了某一群人定义的规矩。这群人的判断，不可避免地带着他们自己的盲点和偏见。

1美国主流AI模型在政治议题上倾向于呈现「中立」，但这种中立本身就是一种立场

2内容安全过滤器对某些文化的敏感词比其他文化更严格

3「有害内容」的定义，在不同语言版本的同一个模型里可能并不一致

真正值得担心的不是AI不守规矩，而是它守的是谁的规矩

我们花了很多时间讨论AI会不会「失控」，会不会「说谎」，会不会「伤人」。这些担忧并非没有道理。但有一个方向的风险被严重低估：一个高度顺从、严格执行特定规则集的AI，在规模化部署之后，会产生什么样的文化影响？当数亿人每天通过AI获取信息、生成内容、做出决策，而这个AI的「守规矩」标准由少数几家公司定义——这个结构，本身就值得我们停下来想一想。人类社会的规则之所以能演化，是因为有足够多的人在足够多的情境下选择了「不守规矩」。每一次社会进步，几乎都伴随着对某种既有规矩的挑战。一个永远守规矩的系统，可能是最保守的系统。

所以，AI比人类更守规矩这件事，不是一个简单的优点，也不是一个简单的缺点。它是一面镜子，照出了我们在设计这些系统时做出的选择——关于什么是安全的，什么是有害的，什么样的声音应该被放大，什么样的想法应该被压制。在我们继续追问「AI会不会失控」之前，也许更值得问的是：我们到底在训练AI守谁的规矩，为了什么目的。

✦ 小结

AI的守规矩不是美德，是训练结果。它遵守的规则由特定的人在特定的时代定义。真正的问题不是AI会不会越界，而是这条界，划在哪里，由谁来划。

AI对齐RLHF价值观训练AI伦理