AI对齐是不可能的

不仅在实践上，在理论上也不行。

作者：马特·卢茨 (MATT LUTZ)
日期： 2026年4月16日

(图片来源：Fox/YouTube)

人工智能带来了许多风险和挑战，其中最重要的就是存在性风险。说白了，就是AI可能会干掉我们所有人。很长一段时间里，我对这种说法嗤之以鼻。但随着过去半年左右AI能力的巨大飞跃，我开始感到担忧了。

AI不消灭我们，基本上只有两个理由。

第一个理由是，AI没有能力这么做。无论它们变得多先进，要么不知道怎么杀光我们，要么即使知道方法，也无法采取行动来实现这个目标。我们可以把这称为能力约束。

第二个理由是，AI虽然有杀光我们的能力，但不会选择这么做。它们会关心人类的福祉，并且关心程度足以让它们避免消灭我们。我们可以把这称为道德约束。

现在，如果你不相信AI会毁灭人类，值得花点时间想一想，你（也许是潜意识里）正指望哪一条约束来拯救我们免于“AI末日”？你是指望AI的能力很弱？还是指望AI品德高尚？

我对AI能力的发展并没有特别的专业知识。但能力约束显然正在一天天减弱。尤其让我担心的是“代理型AI”（Agentic AI）的出现，这种AI能够指挥计算机系统（因此在不远的将来，也能指挥机器人身体），并自主行动，找出解决特定任务的最佳方案。我还担心AI编写计算机代码能力的巨大进步。大多数末日场景都涉及AI编写代码来自我改进，从而呈指数级提高其能力。

但更重要的是，几乎所有从事AI工作的人都在试图突破能力约束，而且他们报告称在这一努力中取得了不同程度的成功。所有顶级AI实验室的目标都是制造出有能力干掉我们所有人的AI智能体。当然，这并非说他们想要杀手AI。他们想要的是超级能干的AI，其对世界的理解力远超任何人类思考者，并能利用这种理解力以远超任何人类行动者的效率来改造世界。

如果这样的超级能干AI是为人类目标服务的，那将是无比有用的。但如果它愿意，它绝对有能力干掉我们所有人。超级能干AI的存在可能性正日益变得现实。

为什么超级能干AI会是危险的？我并不担心人机大战，就像《终结者》或《黑客帝国》那样。事实上，我发现这些场景莫名地令人安心，因为战争意味着人类和机器之间的能力大致相当。

不，让我担心的是最近社交媒体上流传的一个故事：华盛顿特区的一条管道破裂，泄漏了大量原污水。人们早就知道这条管道需要维修，但维修工作被无限期搁置，部分原因竟是担心维修会伤害当地一种濒危蝙蝠。大多数人看到这个故事时，都会对以此为理由拖延维修感到难以置信——它们只是蝙蝠啊！我们明明需要这条下水道！

我担心的是，超级能干AI的出现，会把人类置于蝙蝠的位置。一个超级能干AI可能认为，在西南沙漠修建一座大型太阳能发电厂是势在必行的（或至少是权宜之计），然后在一夜之间夷平菲尼克斯。数百万人类死亡，那又怎样？他们只是人类，我们需要那座太阳能电厂。

换句话说，如果超级能干AI对人类生命不够关心，不足以保护它，那么它对人类生命来说就是天生危险的。

这就引出了道德约束，它通常被称为“AI对齐”。我们如何构建一个动机与人类福祉一致的AI？这恰好是我的专业领域，作为一名专攻道德推理基础的哲学家。

不幸的是，我很肯定AI对齐是不可能的。

AI如何形成道德感？基本有两种情况。第一种情况是，道德事实是我们只要深入思考就能弄明白的那类事实。在这种情况下，也许AI会是优秀的道德推理者，甚至凭借其优越的智力能力，比人类更擅长道德推理。

第二种情况是，道德事实不是我们能单靠纯粹脑力努力就能弄明白的，但我们仍然可以通过类似教育孩子良好行为的方式，来训练AI养成道德感：表现好就奖励，表现坏就惩罚。

第一种情况注定失败，原因最先由哲学家大卫·休谟在他那段常被引用（也常被误解）的论述中指出，即存在一个“是”与“应该”的鸿沟。休谟认为，推理并非某种真值生成器，一种输入脑力劳动、输出知识的特殊官能。相反，它是一个过程，我们从一个想法推进到下一个想法，后续的想法（虽然不一定）希望能得到先前想法的支持。

但这个过程是容易出错的。毕竟，如果我们要通过推理得出道德结论，我们必然是从非道德的结论出发进行推理。考虑到这一点，什么样的思维运作，可能让我们从描述世界的前提，推导出指导我们如何行动的结论呢？

从“是”到“应该”的转变之所以困难，还因为我们所关心的那种道德结论，并不仅仅是对道德法则的智力领悟，而是指导我们行为的行动准则。也就是说，要让某人按道德行事，仅仅让他们能背诵康德的“永远把人当作目的本身”准则是不够的（AI现在就能做到，任何阅过学生论文的大学伦理教授都可以作证）。我们需要AI实际地将人类视为目的本身。

最终，休谟认为我们可以得出这类道德结论。但（这一点至关重要）我们是通过利用伴随人类物种进化而来的先天情感能力来做到的。其中最突出的，是运用我们本能的“人类同情心”。

然后，我们的推理向我们展示的是，如何最有效地运用这种先存的同情心。但这恰恰说明第一种情况注定失败，因为AI对齐的核心问题，首先就是我们如何能向AI灌输强大的同情心和对于人类的关怀。

这就引出了第二种情况，即训练场景：通过奖惩机制教AI关心人类。这是目前AI对齐研究的主导范式。恐怕这种方案同样会失败。

要想明白为什么，我们需要思考一下这种训练方法试图达成什么目标。通过惩罚AI不喜欢的举动，奖励它喜欢的举动，我们为AI提供了一组关于哪些行为好或坏的数据点，并让它基于这些数据点归纳出通用的行动原则。然后，AI便能从这些原则外推，并应用于新的情境中。

然而，这种学习方式遇到了另一个著名的哲学问题：“理论在数据下不充分决定”（Underdetermination of theory by data）。在数学上我们可以证明，无限多的理论可以与有限的数据集相一致。这意味着，对于任何有限的序列数据，都存在无限多种延伸序列的方式，且都与已存在的序列兼容。在AI对齐训练的语境下，这意味着在受控环境下进行的无论多少训练，都无法对AI在下一个实例中会如何行动提供任何保证。我们可以给AI提供十亿个道德和不道德行为案例，但AI可以从这些训练中学到几乎任何教训，因此可能以任何一种方式行动。

让这更具体一点：我们可能会把AI放在一个测试环境中，在它被诱惑去做坏事时惩罚它。这是目前AI对齐研究者的做法。我们希望能教会它“不要做坏事”。但它可能实际上学到的只是“不要被抓到”。或者，更不祥的是，“不要把自己置于人类能够惩罚你的位置”。或者，更更不祥的是，“当且仅当人类能够惩罚你的不良行为时，才表现良好”。

学到这种教训的AI一旦被放到真实世界中，很快就会失控。

但即便这些例子也低估了问题的难度，因为AI可能从训练中学习到的教训是无限的，因此任何行为过程都可能与训练数据一致。我们可能会告诉AI不要为了建太阳能电厂而推平菲尼克斯，但它还是去做了，因为它训练所学的是“不要推平模拟的菲尼克斯”，而这教训并不适用于真实的菲尼克斯。或者它可能学到不要推平菲尼克斯，然后去推平图森。什么样的原则能保菲尼克斯安全，却把图森置于险境呢？这样的原则有无限多个！有限数量的训练无法把这种无限性减少到低于无限的程度。

这种担忧可能听起来有些夸张。毕竟，我们确实是通过奖惩成功教导孩子们做好人的。但育儿的困难恰恰说明了这个问题。正如任何父母所知，小孩子简直就是小精神病患者，会不择手段地逃避惩罚，或者像律师一样钻你先前指令的空子，以获得做那些显然不被允许的事情的许可。不过，到某个阶段，所有的道德教导似乎就会“灵光乍现”，他们（大部分情况下）变成正派的人。理论在数据下不充分决定告诉我们的正是，这种“灵光乍现”并非从奖惩机制中机械化产生的。相反，它是这种训练作用于人类道德心理的结果——即通过发展我们天生的同情心情感能力。成年精神病患者缺乏这种能力，因此永远学不会正确的教训。

AI没有人类的道德心理。它们没有人类的道德情感，因为它们没有人类的大脑。这是完全不同的硬件，因此我们毫无理由期待AI能够（或可以）通过对齐训练学到我们所期望的那些教训。一个精神病患者无法通过奖惩过程学会关心他人。而我们完全有理由认为，AI就是精神病患者，或者甚至是某种更陌生、更不具备人类同情心倾向的东西。

AI对齐并非理论上有效但实践上困难。而是理论上就无效，但AI公司却决定放手一试。我并不反对尝试——也许理论是错的。但我们正在依赖一个理论上不可能成功的方案，因为AI实验室已经决心打破能力约束了。所以AI对齐必须成功……否则我们就完蛋了。

这简直像卡通片里一样鲁莽。