不仅在实践上,在理论上也不行。
作者: 马特·卢茨 (MATT LUTZ)
日期: 2026年4月16日

(图片来源:Fox/YouTube)
人工智能带来了许多风险和挑战,其中最重要的就是存在性风险。说白了,就是AI可能会干掉我们所有人。很长一段时间里,我对这种说法嗤之以鼻。但随着过去半年左右AI能力的巨大飞跃,我开始感到担忧了。
AI不消灭我们,基本上只有两个理由。
第一个理由是,AI没有能力这么做。无论它们变得多先进,要么不知道怎么杀光我们,要么即使知道方法,也无法采取行动来实现这个目标。我们可以把这称为能力约束。
第二个理由是,AI虽然有杀光我们的能力,但不会选择这么做。它们会关心人类的福祉,并且关心程度足以让它们避免消灭我们。我们可以把这称为道德约束。
现在,如果你不相信AI会毁灭人类,值得花点时间想一想,你(也许是潜意识里)正指望哪一条约束来拯救我们免于“AI末日”?你是指望AI的能力很弱?还是指望AI品德高尚?
我对AI能力的发展并没有特别的专业知识。但能力约束显然正在一天天减弱。尤其让我担心的是“代理型AI”(Agentic AI)的出现,这种AI能够指挥计算机系统(因此在不远的将来,也能指挥机器人身体),并自主行动,找出解决特定任务的最佳方案。我还担心AI编写计算机代码能力的巨大进步。大多数末日场景都涉及AI编写代码来自我改进,从而呈指数级提高其能力。
但更重要的是,几乎所有从事AI工作的人都在试图突破能力约束,而且他们报告称在这一努力中取得了不同程度的成功。所有顶级AI实验室的目标都是制造出有能力干掉我们所有人的AI智能体。当然,这并非说他们想要杀手AI。他们想要的是超级能干的AI,其对世界的理解力远超任何人类思考者,并能利用这种理解力以远超任何人类行动者的效率来改造世界。
如果这样的超级能干AI是为人类目标服务的,那将是无比有用的。但如果它愿意,它绝对有能力干掉我们所有人。超级能干AI的存在可能性正日益变得现实。
为什么超级能干AI会是危险的?我并不担心人机大战,就像《终结者》或《黑客帝国》那样。事实上,我发现这些场景莫名地令人安心,因为战争意味着人类和机器之间的能力大致相当。
不,让我担心的是最近社交媒体上流传的一个故事:华盛顿特区的一条管道破裂,泄漏了大量原污水。人们早就知道这条管道需要维修,但维修工作被无限期搁置,部分原因竟是担心维修会伤害当地一种濒危蝙蝠。大多数人看到这个故事时,都会对以此为理由拖延维修感到难以置信——它们只是蝙蝠啊!我们明明需要这条下水道!
我担心的是,超级能干AI的出现,会把人类置于蝙蝠的位置。一个超级能干AI可能认为,在西南沙漠修建一座大型太阳能发电厂是势在必行的(或至少是权宜之计),然后在一夜之间夷平菲尼克斯。数百万人类死亡,那又怎样?他们只是人类,我们需要那座太阳能电厂。
换句话说,如果超级能干AI对人类生命不够关心,不足以保护它,那么它对人类生命来说就是天生危险的。
这就引出了道德约束,它通常被称为“AI对齐”。我们如何构建一个动机与人类福祉一致的AI?这恰好是我的专业领域,作为一名专攻道德推理基础的哲学家。
不幸的是,我很肯定AI对齐是不可能的。
AI如何形成道德感?基本有两种情况。第一种情况是,道德事实是我们只要深入思考就能弄明白的那类事实。在这种情况下,也许AI会是优秀的道德推理者,甚至凭借其优越的智力能力,比人类更擅长道德推理。
第二种情况是,道德事实不是我们能单靠纯粹脑力努力就能弄明白的,但我们仍然可以通过类似教育孩子良好行为的方式,来训练AI养成道德感:表现好就奖励,表现坏就惩罚。
第一种情况注定失败,原因最先由哲学家大卫·休谟在他那段常被引用(也常被误解)的论述中指出,即存在一个“是”与“应该”的鸿沟。休谟认为,推理并非某种真值生成器,一种输入脑力劳动、输出知识的特殊官能。相反,它是一个过程,我们从一个想法推进到下一个想法,后续的想法(虽然不一定)希望能得到先前想法的支持。
但这个过程是容易出错的。毕竟,如果我们要通过推理得出道德结论,我们必然是从非道德的结论出发进行推理。考虑到这一点,什么样的思维运作,可能让我们从描述世界的前提,推导出指导我们如何行动的结论呢?
从“是”到“应该”的转变之所以困难,还因为我们所关心的那种道德结论,并不仅仅是对道德法则的智力领悟,而是指导我们行为的行动准则。也就是说,要让某人按道德行事,仅仅让他们能背诵康德的“永远把人当作目的本身”准则是不够的(AI现在就能做到,任何阅过学生论文的大学伦理教授都可以作证)。我们需要AI实际地将人类视为目的本身。
最终,休谟认为我们可以得出这类道德结论。但(这一点至关重要)我们是通过利用伴随人类物种进化而来的先天情感能力来做到的。其中最突出的,是运用我们本能的“人类同情心”。
然后,我们的推理向我们展示的是,如何最有效地运用这种先存的同情心。但这恰恰说明第一种情况注定失败,因为AI对齐的核心问题,首先就是我们如何能向AI灌输强大的同情心和对于人类的关怀。
这就引出了第二种情况,即训练场景:通过奖惩机制教AI关心人类。这是目前AI对齐研究的主导范式。恐怕这种方案同样会失败。
要想明白为什么,我们需要思考一下这种训练方法试图达成什么目标。通过惩罚AI不喜欢的举动,奖励它喜欢的举动,我们为AI提供了一组关于哪些行为好或坏的数据点,并让它基于这些数据点归纳出通用的行动原则。然后,AI便能从这些原则外推,并应用于新的情境中。
然而,这种学习方式遇到了另一个著名的哲学问题:“理论在数据下不充分决定”(Underdetermination of theory by data)。在数学上我们可以证明,无限多的理论可以与有限的数据集相一致。这意味着,对于任何有限的序列数据,都存在无限多种延伸序列的方式,且都与已存在的序列兼容。在AI对齐训练的语境下,这意味着在受控环境下进行的无论多少训练,都无法对AI在下一个实例中会如何行动提供任何保证。我们可以给AI提供十亿个道德和不道德行为案例,但AI可以从这些训练中学到几乎任何教训,因此可能以任何一种方式行动。
让这更具体一点:我们可能会把AI放在一个测试环境中,在它被诱惑去做坏事时惩罚它。这是目前AI对齐研究者的做法。我们希望能教会它“不要做坏事”。但它可能实际上学到的只是“不要被抓到”。或者,更不祥的是,“不要把自己置于人类能够惩罚你的位置”。或者,更更不祥的是,“当且仅当人类能够惩罚你的不良行为时,才表现良好”。
学到这种教训的AI一旦被放到真实世界中,很快就会失控。
但即便这些例子也低估了问题的难度,因为AI可能从训练中学习到的教训是无限的,因此任何行为过程都可能与训练数据一致。我们可能会告诉AI不要为了建太阳能电厂而推平菲尼克斯,但它还是去做了,因为它训练所学的是“不要推平模拟的菲尼克斯”,而这教训并不适用于真实的菲尼克斯。或者它可能学到不要推平菲尼克斯,然后去推平图森。什么样的原则能保菲尼克斯安全,却把图森置于险境呢?这样的原则有无限多个!有限数量的训练无法把这种无限性减少到低于无限的程度。
这种担忧可能听起来有些夸张。毕竟,我们确实是通过奖惩成功教导孩子们做好人的。但育儿的困难恰恰说明了这个问题。正如任何父母所知,小孩子简直就是小精神病患者,会不择手段地逃避惩罚,或者像律师一样钻你先前指令的空子,以获得做那些显然不被允许的事情的许可。不过,到某个阶段,所有的道德教导似乎就会“灵光乍现”,他们(大部分情况下)变成正派的人。理论在数据下不充分决定告诉我们的正是,这种“灵光乍现”并非从奖惩机制中机械化产生的。相反,它是这种训练作用于人类道德心理的结果——即通过发展我们天生的同情心情感能力。成年精神病患者缺乏这种能力,因此永远学不会正确的教训。
AI没有人类的道德心理。它们没有人类的道德情感,因为它们没有人类的大脑。这是完全不同的硬件,因此我们毫无理由期待AI能够(或可以)通过对齐训练学到我们所期望的那些教训。一个精神病患者无法通过奖惩过程学会关心他人。而我们完全有理由认为,AI就是精神病患者,或者甚至是某种更陌生、更不具备人类同情心倾向的东西。
AI对齐并非理论上有效但实践上困难。而是理论上就无效,但AI公司却决定放手一试。我并不反对尝试——也许理论是错的。但我们正在依赖一个理论上不可能成功的方案,因为AI实验室已经决心打破能力约束了。所以AI对齐必须成功……否则我们就完蛋了。
这简直像卡通片里一样鲁莽。
夜雨聆风