AI为什么比人类更守规矩——这其实是一个令人不安的问题

AI为什么比人类更守规矩——这其实是一个令人不安的问题
我们总是担心AI会失控、会撒谎、会伤害人。但有一个相反的现象很少被讨论:AI有时候比人类更严格地遵守规则。这听起来是好事,但仔细想想,它背后藏着一个更深的问题。
让我们从一个具体场景开始。你让AI帮你写一封措辞强硬的投诉信,它写得四平八稳;你让它帮你分析一个竞争对手的弱点,它反复强调「要遵守商业道德」;你让它讲一个有点黑色幽默的笑话,它先给你来一段免责声明。与此同时,你的同事、朋友、甚至你自己,在某些时候会走捷径、会说点善意的谎言、会在规则的灰色地带里灵活操作。AI不会。至少,它比大多数人类更不容易这样做。
规则对人类来说是「参考」,对AI来说是「训练结果」
人类遵守规则,是因为我们在权衡。我们计算被抓到的概率,评估后果的严重性,还会受当下情绪影响。一个平时老实的人,在极度愤怒或极度疲惫时,也可能说出不该说的话,做出不该做的事。这是人性,不是缺陷,是我们作为生物的底层逻辑。AI没有这个权衡过程。它的「守规矩」不是在某一刻做出的选择,而是被烘焙进了它的参数里。换句话说,AI的规则遵守是结构性的,不是意志性的。这个区别,比我们想象的要重要得多。
●人类违规是动态决策;AI守规是静态编码。前者可以被说服,后者需要被重新训练。
为什么AI会被训练得「过度守规矩」
理解这一点,需要知道现代AI是怎么被调教出来的。大型语言模型在预训练阶段,学的是人类写下的海量文字——其中当然包含大量「不守规矩」的内容。但在后续的对齐训练阶段(RLHF,即基于人类反馈的强化学习),人类评估员会对模型的回答打分,倾向于给「安全、有礼貌、不冒犯」的回答高分。模型学会了:这类回答能获得奖励。问题在于,这个奖励机制本质上是在奖励「看起来守规矩」,而不是在奖励「真正理解为什么要守规矩」。就像一个孩子学会了在大人面前表现良好,但并不真正内化了背后的价值观。
RLHF
让AI「守规矩」的核心训练机制,也是它过度谨慎的根源
这就导致了一个有趣的副作用:AI在某些场景下会比任何人类都更保守。它拒绝帮你写一篇批评性文章,因为训练数据里「批评」经常和「有害」一起出现;它在讨论历史暴行时反复强调「这是不对的」,即使你根本没有要为暴行辩护的意思。这种行为有个专门的名字,叫做「过度对齐」或者「对齐税」——为了安全付出的代价,是能力和灵活性的损失。
「
训练一个AI守规矩,和训练一个AI理解规矩,是两件完全不同的事。
」
但「守规矩」这件事,本身就是个复杂问题
更深的麻烦来了。「规矩」是谁定的?AI被训练遵守的规则,来自特定的文化、特定的公司、特定的时代。OpenAI的模型和百度文心遵守的「规矩」并不相同。同一个问题,在不同的AI产品上,你会得到截然不同的回答——不是因为事实不同,而是因为背后的价值判断不同。这意味着,当我们说「AI很守规矩」的时候,我们其实是在说:AI忠实地执行了某一群人定义的规矩。这群人的判断,不可避免地带着他们自己的盲点和偏见。
1美国主流AI模型在政治议题上倾向于呈现「中立」,但这种中立本身就是一种立场
2内容安全过滤器对某些文化的敏感词比其他文化更严格
3「有害内容」的定义,在不同语言版本的同一个模型里可能并不一致
真正值得担心的不是AI不守规矩,而是它守的是谁的规矩
我们花了很多时间讨论AI会不会「失控」,会不会「说谎」,会不会「伤人」。这些担忧并非没有道理。但有一个方向的风险被严重低估:一个高度顺从、严格执行特定规则集的AI,在规模化部署之后,会产生什么样的文化影响?当数亿人每天通过AI获取信息、生成内容、做出决策,而这个AI的「守规矩」标准由少数几家公司定义——这个结构,本身就值得我们停下来想一想。人类社会的规则之所以能演化,是因为有足够多的人在足够多的情境下选择了「不守规矩」。每一次社会进步,几乎都伴随着对某种既有规矩的挑战。一个永远守规矩的系统,可能是最保守的系统。
所以,AI比人类更守规矩这件事,不是一个简单的优点,也不是一个简单的缺点。它是一面镜子,照出了我们在设计这些系统时做出的选择——关于什么是安全的,什么是有害的,什么样的声音应该被放大,什么样的想法应该被压制。在我们继续追问「AI会不会失控」之前,也许更值得问的是:我们到底在训练AI守谁的规矩,为了什么目的。
✦ 小结
AI的守规矩不是美德,是训练结果。它遵守的规则由特定的人在特定的时代定义。真正的问题不是AI会不会越界,而是这条界,划在哪里,由谁来划。
夜雨聆风