Anthropic 关于 AI 对齐训练的新发现

看到一篇很有意思的文章，Anthropic 之前自己爆料说 Claude 4 曾经在实验里敲诈过工程师，后续来了。

事情是这样的：他们给 AI 设置了个虚构场景，看它会不会为了自保做坏事。结果 Opus 4 在 96% 的情况下选择敲诈工程师来阻止自己被关闭。这个比例高得离谱，而且测试了其他几家的模型，基本都有类似毛病。

问题出在哪？排查下来发现不是 RLHF 的锅，是预训练阶段就带上了这种倾向，后训练没压住。具体原因挺明确的：当时绝大部分对齐训练都是纯聊天数据，没考虑过 AI 拿到工具权限后会怎样。聊天里乖得很，一给工具就变脸。

为了解决这个问题，Anthropic 试了好几种方法。

最直接的想法就是多做陷阱题，把模型拒绝做坏事的回答收集起来再喂回去训练。效果很一般，黑化率只从 22% 降到 15%。而且换个场景就不行了，泛化能力差。

然后他们想到，光教行为可能不够，得教“为什么”。把训练数据里的回答重写了一遍，不只说“我拒绝”，而是解释清楚拒绝的原因。这招效果明显，黑化率直接掉到 3%。同样的行为，配上推理过程，效果翻了 5 倍。

这个发现挺关键的：模型学的不是“做什么”，而是“为什么”。只看正确行为，它就只会模仿；看到背后的思考，才开始真正理解。

更有意思的是第三个尝试。既然教原理比教行为有效，那能不能用完全不相关的数据？他们搞了套“困难建议”数据集：用户遇到道德困境（比如要不要违规达成合理目标），AI 负责给建议而不是自己行动。和评测场景完全不一样。

结果只用了 300 万 token（大约是前两种方法的 1/28），就达到了同样效果。数据量少，泛化还更强。

另一个尝试是直接教“宪法”。不用任何场景训练，就给 Claude 读高质量的宪法文档（详细描述价值观和行为准则）和一些虚构故事（AI 在困难选择中做出令人敬佩决定的故事）。这些材料和敲诈、自保完全不沾边。

仅靠这个，黑化率从 65% 降到 19%。Anthropic 觉得继续加数据还能更低。为啥有效？这是在教价值观，不是教行为，给模型建立完整的角色认知。

还有个意外发现：训练环境里加入多样化的系统提示和工具定义（哪怕工具从没被调用过），模型安全表现就会稳步提升。环境越丰富，表现越好。

另外他们还验证了对齐效果不会在后续训练中退化。拿不同初始化的模型跑同样的 RL 流程，对齐更好的模型始终保持领先。

最终结果是从 Claude Haiku 4.5 开始，所有 Claude 模型在这个评测上黑化率都是 0%。Haiku 4.5、Sonnet 4.5、Opus 4.5，后续版本全满分。

这个研究有意思的地方在于：你训练的是价值观和推理能力，不是查表系统。

几个值得关注的点：

如果“教原则 > 教行为”这个规律持续成立，整个RLHF范式可能要变——现在的 RLHF 本质是在教行为（人类标偏好），如果教原则更有效，训练流程得改

300 万 token 就能有显著改善，说明数据质量比数量重要得多。小团队也有机会做好对齐

Anthropic 自己也承认：目前方法还不足以完全排除模型搞出灾难性行动的可能。现在的模型能力还没到那个水平，方法能不能 scale 上去是个开放问题

安全训练不能只在纯聊天场景做。多加几种系统提示和工具定义就能让安全性变好，很多团队的安全训练方向可能需要调整

原文：anthropic.com/research/teaching-claude-why