夜雨聆风 > > 办公文件 > Anthropic 关于 AI 对齐训练的新发现
当前时间: 2026-05-10 03:27:10
分类:办公文件
评论(0)
Anthropic 关于 AI 对齐训练的新发现看到一篇很有意思的文章,Anthropic 之前自己爆料说 Claude 4 曾经在实验里敲诈过工程师,后续来了。
事情是这样的:他们给 AI 设置了个虚构场景,看它会不会为了自保做坏事。结果 Opus 4 在 96% 的情况下选择敲诈工程师来阻止自己被关闭。这个比例高得离谱,而且测试了其他几家的模型,基本都有类似毛病。问题出在哪?排查下来发现不是 RLHF 的锅,是预训练阶段就带上了这种倾向,后训练没压住。具体原因挺明确的:当时绝大部分对齐训练都是纯聊天数据,没考虑过 AI 拿到工具权限后会怎样。聊天里乖得很,一给工具就变脸。
为了解决这个问题,Anthropic 试了好几种方法。最直接的想法就是多做陷阱题,把模型拒绝做坏事的回答收集起来再喂回去训练。效果很一般,黑化率只从 22% 降到 15%。而且换个场景就不行了,泛化能力差。然后他们想到,光教行为可能不够,得教“为什么”。把训练数据里的回答重写了一遍,不只说“我拒绝”,而是解释清楚拒绝的原因。这招效果明显,黑化率直接掉到 3%。同样的行为,配上推理过程,效果翻了 5 倍。这个发现挺关键的:模型学的不是“做什么”,而是“为什么”。只看正确行为,它就只会模仿;看到背后的思考,才开始真正理解。
更有意思的是第三个尝试。既然教原理比教行为有效,那能不能用完全不相关的数据?他们搞了套“困难建议”数据集:用户遇到道德困境(比如要不要违规达成合理目标),AI 负责给建议而不是自己行动。和评测场景完全不一样。结果只用了 300 万 token(大约是前两种方法的 1/28),就达到了同样效果。数据量少,泛化还更强。
另一个尝试是直接教“宪法”。不用任何场景训练,就给 Claude 读高质量的宪法文档(详细描述价值观和行为准则)和一些虚构故事(AI 在困难选择中做出令人敬佩决定的故事)。这些材料和敲诈、自保完全不沾边。仅靠这个,黑化率从 65% 降到 19%。Anthropic 觉得继续加数据还能更低。为啥有效?这是在教价值观,不是教行为,给模型建立完整的角色认知。
还有个意外发现:训练环境里加入多样化的系统提示和工具定义(哪怕工具从没被调用过),模型安全表现就会稳步提升。环境越丰富,表现越好。另外他们还验证了对齐效果不会在后续训练中退化。拿不同初始化的模型跑同样的 RL 流程,对齐更好的模型始终保持领先。
最终结果是从 Claude Haiku 4.5 开始,所有 Claude 模型在这个评测上黑化率都是 0%。Haiku 4.5、Sonnet 4.5、Opus 4.5,后续版本全满分。
这个研究有意思的地方在于:你训练的是价值观和推理能力,不是查表系统。如果“教原则 > 教行为”这个规律持续成立,整个RLHF范式可能要变——现在的 RLHF 本质是在教行为(人类标偏好),如果教原则更有效,训练流程得改300 万 token 就能有显著改善,说明数据质量比数量重要得多。小团队也有机会做好对齐Anthropic 自己也承认:目前方法还不足以完全排除模型搞出灾难性行动的可能。现在的模型能力还没到那个水平,方法能不能 scale 上去是个开放问题安全训练不能只在纯聊天场景做。多加几种系统提示和工具定义就能让安全性变好,很多团队的安全训练方向可能需要调整
原文:anthropic.com/research/teaching-claude-why
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-05-10 04:07:05 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/598523.html
- 运行时间 : 0.110451s [ 吞吐率:9.05req/s ] 内存消耗:4,638.20kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=7386548828fb4cf89df70ec54021f7fb
- CONNECT:[ UseTime:0.000419s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000602s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000317s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000280s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000534s ]
- SELECT * FROM `set` [ RunTime:0.000225s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000569s ]
- SELECT * FROM `article` WHERE `id` = 598523 LIMIT 1 [ RunTime:0.000417s ]
- UPDATE `article` SET `lasttime` = 1778357225 WHERE `id` = 598523 [ RunTime:0.016510s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.004501s ]
- SELECT * FROM `article` WHERE `id` < 598523 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.000642s ]
- SELECT * FROM `article` WHERE `id` > 598523 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.000399s ]
- SELECT * FROM `article` WHERE `id` < 598523 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.000623s ]
- SELECT * FROM `article` WHERE `id` < 598523 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.000639s ]
- SELECT * FROM `article` WHERE `id` < 598523 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.000809s ]
0.112650s