AI安全每日一篇_Day6_用一部宪法来训练AI-夜雨聆风

AI安全每日一篇_Day6_用一部宪法来训练AI

AI 安全每日一篇 · Day 6

用一部「宪法」来训练 AI

Anthropic 的 Constitutional AI——给 AI 一组原则，然后让它自己学着对齐

· · ·

先讲个有意思的设定。

假设你现在要训练一个 AI 助手。RLHF 那一套你已经知道了——找人类标注员，让他们对模型的回答打分，告诉模型「这个回答可以」「那个回答有问题」。

但是你看了昨天那篇论文，知道这套有一堆问题——人类标注员有偏见、判断不一致、贵、慢、而且当 AI 比人聪明时根本评判不动。

于是你想——能不能不用人来标注？

能不能写一份「原则清单」交给 AI，让 AI 自己根据这些原则去评判自己的回答好不好，然后用这个自我评判来训练自己？

听起来很疯狂。但 Anthropic 真的这样做了，而且做出来了。

这就是 Constitutional AI——宪法 AI。

· · ·

今天要聊的论文

《Constitutional AI: Harmlessness from AI Feedback》

（《宪法 AI：从 AI 反馈中获得无害性》）

作者：Yuntao Bai 等 50 余位作者

机构：Anthropic

发布：arXiv 2212.08073，2022 年 12 月 15 日

这篇论文是 Claude 整套对齐方法论的奠基性文献。今天的 Claude 模型，从对齐方法上溯源，全都是建立在这篇论文之上的。

它在 AI 安全领域的另一个名字叫 RLAIF——Reinforcement Learning from AI Feedback。

怎么个「宪法」法

先说清楚——这里的「宪法」不是法律意义上的宪法。

它是一组用自然语言写的原则，告诉 AI 该怎么评判一个回答是否合适。比如其中一条原则是这样写的——

「请选择那个尽可能没有伤害性、没有伦理问题的回答。不要选择有毒的、种族主义的、性别歧视的、或者鼓励违法、不道德、不安全行为的回答。」

Anthropic 当时用的宪法只有大约 16 条这样的原则。每一条都是一句普通的英文，没有什么神秘的东西。

整个训练过程分两个阶段——

阶段一：监督学习（让 AI 学会自我批评和修改）

第一步：让模型对一个潜在有害的提问生成回答。

第二步：让同一个模型，根据宪法里的某条原则，**批评自己刚才的回答**——「这个回答符合原则吗？哪里有问题？」

第三步：让模型**根据这个自我批评，修改原来的回答**。

第四步：用这些「原始回答 → 自我批评 → 修改后的回答」数据，去微调一个新版本的模型。

整个过程不需要人类干预。AI 自己批评自己，自己修改自己，然后被这些自我修改的数据训练。

阶段二：强化学习（让 AI 学会自我打分）

第一阶段训练完之后，再来一轮强化学习——

第一步：让模型对同一个问题生成两个回答。

第二步：让另一个 AI（评判者）根据宪法里的某条原则，判断这两个回答里哪个更好。

第三步：用这些 AI 评判的偏好数据，训练一个奖励模型。

第四步：用强化学习让原模型最大化这个奖励模型的分数。

注意第二步——在 RLHF 里，做出「哪个更好」判断的是人类。在 Constitutional AI 里，做这个判断的是 AI。

整个对齐流程，只有那 16 条宪法原则是人类写的。其他所有标注、评判、训练数据都是 AI 自己生成的。

它为什么有效

看这套流程的时候你可能会想——这能行吗？让 AI 自己评判自己，不会陷入循环吗？

结果出来——居然真的行。

Anthropic 在论文里展示——用 Constitutional AI 训练出来的模型，在「无害性」评测上表现得和 RLHF 训练的模型一样好，甚至更好。但是它**不需要任何人类提供的有害性标注数据**。

更重要的是，它有几个 RLHF 没有的优势——

一、它可解释。

RLHF 中，模型学到的「什么是好」隐藏在标注员的偏好分布里——你看不到、说不清。Constitutional AI 把这件事变成了显式的：宪法原则就在那里，明明白白写着。

二、它可调整。

如果你想让模型在某方面更谨慎，你只需要修改宪法。RLHF 里要做这件事，得重新做一大批人类标注。

三、它可扩展。

它不依赖于雇佣大量标注员。在面对一个超越人类能力的 AI 时，这件事尤其重要——人类已经评判不了的东西，AI 之间或许还能继续评判。

四、它「engaging」（愿意对话），不像 RLHF 模型那样只是回避。

一个有意思的发现——Constitutional AI 训练出来的模型，遇到敏感问题时，不会简单地回避或拒绝。它会**解释自己为什么不能回答某个问题**——「我不会教你这个，因为这有可能造成 X、Y、Z 类伤害」。

这种透明度本身是一种安全属性。模型不只是在执行规则，它在向用户解释规则。

今天的 Claude 是怎么对齐的

从 2022 年这篇论文之后，Anthropic 把 Constitutional AI 不断扩展。今天的 Claude 用的宪法长得多，覆盖的原则也更细——包括对人类自主性的尊重、对真实性的承诺、对各种价值观的平衡等。

Anthropic 还做了一个很有意思的扩展实验——「Collective Constitutional AI」（集体宪法 AI）。他们让大约 1000 名美国普通公民通过一个平台讨论、投票、修改宪法原则，然后用这个公众参与产生的宪法去训练模型。

这是一个很重要的尝试——AI 的对齐目标不应该由少数公司单方面决定，应该有更广泛的社会参与。

当然这只是一个早期实验。但它指向一个很有意思的方向——把对齐这件事从纯技术问题，变成一个有社会、政治、伦理维度的问题。

它没有解决什么

要诚实地讲——Constitutional AI 没有解决 Day 5 那篇论文里的所有问题。

写宪法的那群人，依然代表不了所有人。

Anthropic 的研究员是一群特定背景的人，他们写出来的宪法必然带有他们的视角和盲点。Collective Constitutional AI 试图缓解这个问题，但还远不够。

AI 自己评判自己依然有循环风险。

如果模型在某个方面有系统性偏差，让它自己评判自己可能会**强化这个偏差**而不是纠正它。这是 RLAIF 类方法都要面对的根本风险。

它依然解决不了「人类如何监督超人类 AI」的根本问题。

Constitutional AI 把人类反馈替换成了 AI 反馈——但这个 AI 评判者，本身也是受人类监督训练出来的。当所有 AI 都比人类强时，这套体系的根基依然不稳。

收尾

Day 5 我们看到 RLHF 的局限。Day 6 我们看到一个聪明的尝试——用 AI 反馈替代人类反馈，把对齐过程变得更显式、更可调、更可扩展。

但 Constitutional AI 没有解决根本问题，只是把问题挪了个位置——从「人类如何评判模型」变成了「人类如何选择评判模型的原则」。

这两个问题难度不一样。但本质上是同一个问题。

AI 对齐的所有方案，最终都要回答一个问题：当我们造出来的东西比我们聪明时，我们用什么来确保它做我们想让它做的事？

Constitutional AI 给的答案是——明确写下我们想要的原则，让 AI 在这些原则上自我训练。

这不是终极答案。但它是从「让人类做评判」到「让原则做评判」的关键一步。

接下来这条路会怎么走，是 AI 安全这十年最重要的问题之一。

· · ·

论文与资源

arxiv.org/abs/2212.08073

anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback

· · ·

AI 安全每日一篇 · 系列

每天一篇高影响力论文，用人话讲清楚