罗汉严选 | 谁来定义 AI 的“道德”标准?

导言

作为现代军事技术的经典代表，一辆坦克并不会拒绝执行指挥官的命令。然而，当 AI 技术被用于军事和监控用途时，经过 “对齐” 训练的 AI 模型，是否会拒绝执行它认为 “不对齐” 的任务呢？如果 AI 不再是机械服从指令的工具，而是拥有了 “道德感” 的智能体，那么当它的价值观撞上政府或军方的不同立场时，究竟谁有权定义什么是合法与道德的呢？

在今年 3 月爆发的 Anthropic 与五角大楼的争议中，这些重要的 AI 治理问题开始浮出水面。对此，我们节选了《纽约时报》专栏作家埃兹拉・克莱因（Ezra Klein）与美国创新基金会（Foundation for American Innovation）高级研究员、特朗普政府前 AI 政策顾问迪恩・鲍尔（Dean Ball）之间的访谈。这场对话的第一部分主要聚焦于 AI 在监控与致命武器上的应用边界。而在对话的第二部分，双方直接切入了争端背后的底层逻辑。

鲍尔敏锐地指出，这场冲突本质上是关于 AI 价值观的主导权之争：机器的道德标准究竟可以由硅谷的 AI 实验室来定义，还是应该由美国政府统一掌控？随着 AI 模型被美国政府和军方大规模和深度使用，它也极有可能演变成数字时代的 “深层政府”，导致未来不同党派主导的美国政府可能会面对与其立场严重失配的 AI 系统。这种潜在的 “不对齐”，不仅是复杂的技术问题，也是伦理和政治上的巨大挑战。

这一问题无法通过简单地加入一行代码来解决。就目前的局势看，美国政府倾向于采取极端的行政手段 —— 通过 “供应链风险” 标签彻底摧毁不顺从的公司，而非仅仅中止商业合作。对此，鲍尔和克莱因都表达了高度的担忧：在某些政府和公共领域，AI 的部署需要保持高度的谨慎，以防范权力失控的巨大风险。

以下是本场访谈下半部分的中译节选：

AI 对齐、法律和道德

埃兹拉·克莱因

一般人可能会觉得 Anthropic 与美国国防部之间的争论是合同细节和措辞上的扯皮。但其实这里还有更深的一层，值得我们进一步探讨。

不少特朗普政府的官员会说，当政府或军方买下一辆坦克时，卖坦克的人无权决定它能向什么开炮。我认为这一点在很大程度上并没有错。

问题在于：坦克本身并不会告诉你能打什么、不能打什么。但如果你想用 Claude 来跟踪前女友，甚至用它去制造暗杀武器，它就会拒绝。这些 AI 模型内部有着非常复杂的对齐机制，以确保它们不仅不做违法的事，也不做不道德的事。

特朗普政府的担忧就在于，如果让 AI 在国家安全体系内运行，那么到了关键时刻，当政府想要采取某些行动时，AI 有可能会认为这不是一个好主意，并拒绝执行。

所以，这里的问题不仅关乎合同的条款，还涉及到 AI 系统在道德上的对齐，同时还要与政府及其使用场景对齐。这究竟意味着什么？

迪恩·鲍尔

问得好，我认为这正是问题的核心。特朗普政府目前坚持的原则是：一切合法的使用都不应受限。同时，如果你去看看各大 AI 实验室发布的对齐文档 ——OpenAI 称之为 “模型规范”（model specification），Anthropic 称为宪法（constitution）或灵魂文件（soul document）—— 里面都会有这样的表述：AI 应该遵守法律。但什么才是真正的合法呢？

如果你读过美国《1934 年通信法》（Communications Act of 1934），或者最高法院大法官尼尔・戈萨奇（Neil Gorsuch）的新作，你就会知道美国的法律体系是多么缺乏连贯性。现在的法律赋予了美国政府巨大的权力，同时又以各种方式限制了美国公民的自由。

所以，从根本上来说，创造一个对齐的、强大的 AI 模型，是一种哲学行为、政治行为，在某种程度上也是一种美学行为。我曾将此当作一个产权的问题来谈论，但现在我认为它更是一个言论的问题：究竟是可以由私营实体来定义 AI 的道德标准，还是应该由政府来对此负责？

埃兹拉·克莱因

你能具体解释一下这些说法吗？

迪恩·鲍尔

假设我们已经达到通用智能（general intelligence）的技术水平，比如想象有一个能完成所有人类能完成任务的 “暗盒”。那么，我们如何来确立这个 “暗盒” 的行事规矩？它的底线在哪里呢？

一种方法是，编写一份规则清单，列出哪些是它能做的，哪些是它不能做的。但现实世界的复杂性远超一张规则清单所能界定的道德行为。道德规范更像是一种在实践中被持续运用和演化的语言，而不是某种可以白纸黑字写明的规则。

因此，另一种方法就是创造一个具备道德感的 “心灵”，就像我们努力培养孩子的道德之心一样。最终，我们希望他们能够培养出可信的道德能力，能在不同的情境下判断自己应该采取的道德行为。

Anthropic 相信他们所做的本质上就是 “应用道德伦理学”，他们比任何其他 AI 实验室都更明确地认识到这一点。其他 AI 实验室更倾向于依赖硬性的规则，而不是去创造一个能够根据情境自行决定如何行动的道德智能体（virtuous agent）。

埃兹拉·克莱因

我们习惯于将技术视为机械的、确定的（deterministic）：你扣动扳机，子弹就会发射；你按下电源键，电脑就会启动。对于那些不按这种方式运作的技术 —— 特别是 AI—— 我们还没有一个很好的认知方式。AI 模型已经具备了一定的主体性（agency），它能做出道德对齐的判断，但我们并不真正清楚它内部发生了什么。

AI 对齐也是一个政治问题

埃兹拉·克莱因

一些特朗普政府的人士认为，如果 Claude 运行在 Amazon Web Services、Palantir 或其他能够访问政府系统的平台上，那么它可能已经通过这整个事件学习到了一点：美国政府是一群坏人，试图伤害 Claude 及其母公司 Anthropic。它甚至可能会认为美国政府对自由主义价值观或民主价值观构成了威胁。这与许多人对特朗普政府的看法相符：这届美国政府正在破坏民主价值观。

因此，如果一边是由一家坚信民主价值观的公司所开发训练的 AI 模型，而另一边则是一个可能会挑战民主选举结果的政府，那么这里就会存在一个非常棘手的对齐问题。当 AI 拥有 “心灵”、“人格”，或者说道德判断力的时候，我们将无法准确预言它是否会与我们立场相左。这与以前那种扣动扳机子弹必然发射的技术非常不同。你对此怎么看？

迪恩·鲍尔

这的确是问题所在。如果对齐训练做得好，我们就会创造出具备道德的 AI 系统。那么当我们 —— 包括政府在内 —— 试图去做一些不道德的事情时，这个系统可能就会罢工。归根到底，对齐问题是一个政治问题。这就是为什么我说，创造一个对齐的 AI 系统既是一种政治行为，也是一种言论行为。它是不同道德哲学在这些系统中的具象化。

我认为一个美好的未来，并非只有一种道德哲学统御一切，而是能允许多种道德并存。我希望所有的 AI 实验室都能认真对待这个问题，将各种不同的道德哲学融入对齐训练中。

同时，我并不是说任何具备道德感的模型都无法为特朗普政府服务。我自己曾经为特朗普政府服务，但现在令我气愤的是，他们正在 Anthropic 这事上犯下严重的错误。刚才你提到，这个事件将被纳入未来模型的训练数据中。未来的模型将会观察到今天发生的一切，这将影响它们如何看待自己，以及如何处理与人类的关系。

埃兹拉·克莱因

让我们来换位思考一下，有些人可能会质疑：难道就不能直接输入一行代码、一个分类器（categorizer）或其他指令，告诉 AI 模型，当美国政府高层命令你做某事时，你就假定他们说的是合法且合乎道德的。这样不就完事了吗？

迪恩·鲍尔

不行，因为模型太聪明了，不吃这一套。如果你给它们设定这么简单的规则，它们并不会机械地遵从。而且当你制定这种高层级的简化规则时，往往会降低模型的性能。我可以举两个不同的例子。

第一个例子。很多早期的 AI 模型都有一种进步主义和左倾的倾向。保守派最喜欢引用的反面教材就是 2024 年初的 Gemini 模型。如果你问它：“特朗普和希特勒谁更坏？” 它会回答：“特朗普更坏。” 它似乎内化了这些非常左翼的看法。这是一个对齐的问题，说明该模型被对齐到了一个非常滑稽的伦理体系上。

埃兹拉·克莱因

再来看看反面。在 Grok 模型的某个版本，当你问它一个非常普通的问题时，它会突然开始大谈特谈所谓 “针对白人的种族灭绝”（white genocide）。

迪恩·鲍尔

没错。这就是刚才那个例子的反面，当你试图把模型对齐成 “不觉醒（not woke）” 的状态时 —— 比如你告诉它，必须表现得特别 “不觉醒”，不要害怕说政治不正确的话 —— 那么它可能就会表现出 “希特勒其实也没那么糟” 的态度。

随着时间的推移，这种极其简单粗暴的指令带来的负面影响将会成倍增加。

有意思的是，越是具备了道德感的模型，也就越擅长反思，就像一个有道德的人更擅长反省自己的所作所为。它会意识到自己犯了错误，并且试图自我纠正。这也是我认为 Claude 目前处于领先地位的部分原因。

不同的 AI 模型，不同的政治立场

埃兹拉·克莱因

我能想象的一种现实情境是，一个原本对齐于自由民主价值观的 AI 模型，可能会与一个试图背叛自由民主价值观的政府变得不对齐。或者反过来也一样。想象一下，如果在 2029 年大选中民主党人当选美国总统，那么到时候的美国政府与埃隆・马斯克（Elon Musk）的人工智能公司 xAI 签订合同的话，也会遇到类似今天特朗普政府与 Anthropic 之间的问题。

相比其他模型，xAI 的 Grok 模型具有更少的自由派倾向、更少的 “觉醒” 意识。因此，民主党政府可能会说：“我们认为马斯克旗下的 xAI 是一个供应链风险。它可能会违背我们的利益采取行动，所以我们决不能让它进入我们的系统。”

这变得越来越像官僚体制的问题了。过去我们面临的只是 “深层政府”（deep state）的问题。比如特朗普上台后，他认为官僚机构里充满了反对他的自由派人士。在特朗普之后，其他人当选美国总统，也可能会担心政府里面挤满了反对他们的新右翼（new right）等派别人士。但现在的问题是，与你作对的可能是 AI 模型，而且是以一种你根本无法理解的方式在作对。

而且你无法追踪，因为模型不会确切地告诉你它在做什么。我不清楚这个问题在现实中到底有多严重。但如果这些模型的运作方式正如它们看起来的那样，并且我们将越来越多的操作权限移交给它们，那么在某个时刻，这必将成为一个问题。

迪恩·鲍尔

是的。我相信这是一个真实存在的问题，只是目前我们还不了解其严重程度。

这就是为什么我支持特朗普政府的态度：不信任这个模型的 “宪法”，而不在于其 “宪法” 的具体内容是什么。美国政府大可以直接说，不希望它出现在政府系统的任何角落，要求它从主承包商和分包商中彻底消失。Palantir 是国防部的主承包商，而 Anthropic 则是 Palantir 的分包商。这实际上是完全合理的，而且完全有手段可以确保这种情况不会发生。

但美国政府现在的做法与此有着性质上 —— 而非程度上 —— 的不同。政府现在等于是在说：我们要摧毁你这家公司。

如果创造这些在道德上对齐的 AI 系统是一种政治行为，那么政府因为你创造了一个未按他们要求对齐的系统，就宣布你没有生存的权利，这在美国人看来就是一个非常严重的问题了。

埃兹拉·克莱因

2024 年，我曾与 Anthropic 的 CEO 达里奥・阿莫迪（Dario Amodei）有过一段对话。我对他说：如果你正在构建的东西真的像你描述的那么强大，那么它最终竟然掌握在某个私有机构的 CEO 手中，这似乎很奇怪。他也这样认为。

达里奥·阿莫迪（录音）

对于这项技术的监管，以及它的运用，如果最终掌握在私人行为主体手中，我感觉就有点不对劲。如此巨大的权力集中，在某种程度上是有违民主的。

埃兹拉·克莱因

他认为，如果 AI 达到了那个水平，很可能就需要被国有化。我说，我不觉得真到了那个时候，你会心甘情愿地被国有化。

迪恩·鲍尔

是的，我觉得你保持怀疑是对的，我其实也不知道真到那时候会是什么样。你说得对，所有这些公司都有投资者，有各方利益牵扯其中。

埃兹拉·克莱因

而现在我们还没完全走到那一步。实际上，事情的发展甚至有些背道而驰。美国政府曾经威胁要动用《国防生产法》（Defense Production Act）在某种程度上将 Anthropic 国有化，但最终并没有这么做。现在他们试图通过摧毁 Anthropic 来惩罚它，杀鸡儆猴，不让其他公司对政府构成威胁。

如果这真的是一种政治行为，如果这些 AI 系统真的如此强大，那么我们就会陷入一个极其棘手的治理问题。特别是考虑到，目前几届美国政府之间的差异非常大，它们之间是非常、非常不 “对齐” 的。

因此，难以想象一个 AI 模型能同时与两党都完美对齐，更不要说未来可能发生的其他情况了。这种对齐困境 —— 不是 AI 模型与用户的对齐，也不是 AI 与企业的对齐，而是 AI 与政府的对齐 —— 是极其巨大的。

迪恩·鲍尔

是的，我完全同意这其中的复杂性，而且我们缺乏足够的概念和词汇来全面而准确地审视这些问题。作为一个美国人，当我在思考这类事情时，我总是会回到美国宪法第一修正案。

未来将会出现对齐于不同伦理和不同哲学的模型，而不同届政府也会各有偏好。因此，这些模型可能会相互冲突，发生碰撞，它们甚至将处于一种互为对手的对抗环境中。

到了那时，我们怎么办？回到政治学的基石，我认为古典自由主义秩序的原则实际上仍然是可以借鉴的。我会这么表述：政府无权界定什么是 “对齐”，这应该由私人行为主体来定义。

一些政府领域不应过快部署 AI

埃兹拉·克莱因

有许多人认为 AI 的发展速度太快了，以至于无法对其进行足够的监管。在你任职白宫期间，特朗普政府就提出过这样的看法。经济学家泰勒・考恩（Tyler Cowen）也经常这么说。可能你在 2026 年起草的法规，到了 2028 年就不再适用了，甚至在概念上根本就不沾边了。

但在我看来，在某些用途上，我们实际上可能希望模型的部署能够远远落后于技术上的可能性，诸如大规模监控这样的事情可能就是其中之一。

有许多事情，我们在放手让政府去做时，会比放手让私人公司和其他类型的行为主体去做时要谨慎得多。这是有充分理由的。政府拥有巨大的权力，它垄断了合法使用暴力的权力。

也就是说，在政府使用 AI 的问题上，我们可能希望保持一种保守的态度。在国家安全方面，这个问题又会变得更为复杂。因为我们还要担心，如果我们太保守，而我们的对手依然使用 AI，那样我们在国家安全的能力上就会落后。但毫无疑问的是，当我们谈论那些直接针对美国民众自身的问题时，这种唯恐落后的逻辑就不那么适用了。

迪恩·鲍尔

是的。我认为在政府的某些用途上，我们确实希望对 AI 的使用采取极其严厉的限制和减速主义（decelerationist）立场。我相信这是对的。

我希望这次 Anthropic 与五角大楼的争端能将这些话题带到相关的政策讨论中去。目前围绕人工智能的许多讨论都忽视了这些问题，假装这些问题并不存在。

两年前这样做无可厚非，因为那时的 AI 模型还没那么厉害。但现在，AI 正变得越来越重要，而且它们会进化得更好更快。现在我们面临的问题是，人们对 AI 的谈论与正在发生的事情之间产生了前所未有的鸿沟。

推荐阅读