AI安全每日一篇_Day6_用一部宪法来训练AI
AI 安全每日一篇 · Day 6
用一部「宪法」来训练 AI
Anthropic 的 Constitutional AI——给 AI 一组原则,然后让它自己学着对齐
· · ·
先讲个有意思的设定。
假设你现在要训练一个 AI 助手。RLHF 那一套你已经知道了——找人类标注员,让他们对模型的回答打分,告诉模型「这个回答可以」「那个回答有问题」。
但是你看了昨天那篇论文,知道这套有一堆问题——人类标注员有偏见、判断不一致、贵、慢、而且当 AI 比人聪明时根本评判不动。
于是你想——能不能不用人来标注?
能不能写一份「原则清单」交给 AI,让 AI 自己根据这些原则去评判自己的回答好不好,然后用这个自我评判来训练自己?
听起来很疯狂。但 Anthropic 真的这样做了,而且做出来了。
这就是 Constitutional AI——宪法 AI。
· · ·
今天要聊的论文
《Constitutional AI: Harmlessness from AI Feedback》
(《宪法 AI:从 AI 反馈中获得无害性》)
作者:Yuntao Bai 等 50 余位作者
机构:Anthropic
发布:arXiv 2212.08073,2022 年 12 月 15 日
这篇论文是 Claude 整套对齐方法论的奠基性文献。今天的 Claude 模型,从对齐方法上溯源,全都是建立在这篇论文之上的。
它在 AI 安全领域的另一个名字叫 RLAIF——Reinforcement Learning from AI Feedback。
怎么个「宪法」法
先说清楚——这里的「宪法」不是法律意义上的宪法。
它是一组用自然语言写的原则,告诉 AI 该怎么评判一个回答是否合适。比如其中一条原则是这样写的——
「请选择那个尽可能没有伤害性、没有伦理问题的回答。不要选择有毒的、种族主义的、性别歧视的、或者鼓励违法、不道德、不安全行为的回答。」
Anthropic 当时用的宪法只有大约 16 条这样的原则。每一条都是一句普通的英文,没有什么神秘的东西。
整个训练过程分两个阶段——
阶段一:监督学习(让 AI 学会自我批评和修改)
第一步:让模型对一个潜在有害的提问生成回答。
第二步:让同一个模型,根据宪法里的某条原则,**批评自己刚才的回答**——「这个回答符合原则吗?哪里有问题?」
第三步:让模型**根据这个自我批评,修改原来的回答**。
第四步:用这些「原始回答 → 自我批评 → 修改后的回答」数据,去微调一个新版本的模型。
整个过程不需要人类干预。AI 自己批评自己,自己修改自己,然后被这些自我修改的数据训练。
阶段二:强化学习(让 AI 学会自我打分)
第一阶段训练完之后,再来一轮强化学习——
第一步:让模型对同一个问题生成两个回答。
第二步:让另一个 AI(评判者)根据宪法里的某条原则,判断这两个回答里哪个更好。
第三步:用这些 AI 评判的偏好数据,训练一个奖励模型。
第四步:用强化学习让原模型最大化这个奖励模型的分数。
注意第二步——在 RLHF 里,做出「哪个更好」判断的是人类。在 Constitutional AI 里,做这个判断的是 AI。
整个对齐流程,只有那 16 条宪法原则是人类写的。其他所有标注、评判、训练数据都是 AI 自己生成的。
它为什么有效
看这套流程的时候你可能会想——这能行吗?让 AI 自己评判自己,不会陷入循环吗?
结果出来——居然真的行。
Anthropic 在论文里展示——用 Constitutional AI 训练出来的模型,在「无害性」评测上表现得和 RLHF 训练的模型一样好,甚至更好。但是它**不需要任何人类提供的有害性标注数据**。
更重要的是,它有几个 RLHF 没有的优势——
一、它可解释。
RLHF 中,模型学到的「什么是好」隐藏在标注员的偏好分布里——你看不到、说不清。Constitutional AI 把这件事变成了显式的:宪法原则就在那里,明明白白写着。
二、它可调整。
如果你想让模型在某方面更谨慎,你只需要修改宪法。RLHF 里要做这件事,得重新做一大批人类标注。
三、它可扩展。
它不依赖于雇佣大量标注员。在面对一个超越人类能力的 AI 时,这件事尤其重要——人类已经评判不了的东西,AI 之间或许还能继续评判。
四、它「engaging」(愿意对话),不像 RLHF 模型那样只是回避。
一个有意思的发现——Constitutional AI 训练出来的模型,遇到敏感问题时,不会简单地回避或拒绝。它会**解释自己为什么不能回答某个问题**——「我不会教你这个,因为这有可能造成 X、Y、Z 类伤害」。
这种透明度本身是一种安全属性。模型不只是在执行规则,它在向用户解释规则。
今天的 Claude 是怎么对齐的
从 2022 年这篇论文之后,Anthropic 把 Constitutional AI 不断扩展。今天的 Claude 用的宪法长得多,覆盖的原则也更细——包括对人类自主性的尊重、对真实性的承诺、对各种价值观的平衡等。
Anthropic 还做了一个很有意思的扩展实验——「Collective Constitutional AI」(集体宪法 AI)。他们让大约 1000 名美国普通公民通过一个平台讨论、投票、修改宪法原则,然后用这个公众参与产生的宪法去训练模型。
这是一个很重要的尝试——AI 的对齐目标不应该由少数公司单方面决定,应该有更广泛的社会参与。
当然这只是一个早期实验。但它指向一个很有意思的方向——把对齐这件事从纯技术问题,变成一个有社会、政治、伦理维度的问题。
它没有解决什么
要诚实地讲——Constitutional AI 没有解决 Day 5 那篇论文里的所有问题。
写宪法的那群人,依然代表不了所有人。
Anthropic 的研究员是一群特定背景的人,他们写出来的宪法必然带有他们的视角和盲点。Collective Constitutional AI 试图缓解这个问题,但还远不够。
AI 自己评判自己依然有循环风险。
如果模型在某个方面有系统性偏差,让它自己评判自己可能会**强化这个偏差**而不是纠正它。这是 RLAIF 类方法都要面对的根本风险。
它依然解决不了「人类如何监督超人类 AI」的根本问题。
Constitutional AI 把人类反馈替换成了 AI 反馈——但这个 AI 评判者,本身也是受人类监督训练出来的。当所有 AI 都比人类强时,这套体系的根基依然不稳。
收尾
Day 5 我们看到 RLHF 的局限。Day 6 我们看到一个聪明的尝试——用 AI 反馈替代人类反馈,把对齐过程变得更显式、更可调、更可扩展。
但 Constitutional AI 没有解决根本问题,只是把问题挪了个位置——从「人类如何评判模型」变成了「人类如何选择评判模型的原则」。
这两个问题难度不一样。但本质上是同一个问题。
AI 对齐的所有方案,最终都要回答一个问题:当我们造出来的东西比我们聪明时,我们用什么来确保它做我们想让它做的事?
Constitutional AI 给的答案是——明确写下我们想要的原则,让 AI 在这些原则上自我训练。
这不是终极答案。但它是从「让人类做评判」到「让原则做评判」的关键一步。
接下来这条路会怎么走,是 AI 安全这十年最重要的问题之一。
· · ·
论文与资源
arxiv.org/abs/2212.08073
anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
· · ·
AI 安全每日一篇 · 系列
每天一篇高影响力论文,用人话讲清楚
夜雨聆风