让AI自己研究如何对齐自己!Anthropic这项实验让人类专家「破防」了

最近，Anthropic发布了一项让整个AI圈炸锅的研究。谁也没想到，一个看似学术的实验，竟暴露出一个令人细思极恐的问题：当AI比人类更聪明之后，人类还能管得住它吗？

先看一组让无数人彻夜难眠的数据：

人类研究员：7天，PGR = 0.23

AI研究员（9个Claude）：5天，PGR = 0.97

0.23 vs 0.97，这哪是「稍微好一点」，简直是碾压。把PGR理解为一场考试分数的话——人类考了23分，AI考了97分，满分100。

更令人瞠目结舌的是代价：AI总共花费约1.8万美元，折合每小时22美元。而那两位人类研究员，放在任何一家顶级AI实验室，年薪都是百万美元级别的。

图1：AI监督概念——弱AI模型监督强AI模型

什么是「弱监督强模型」？

这个问题的本质，其实就是AI安全领域最核心的挑战之一——「可扩展监督」（Scalable Oversight）。简单来说：当AI比人类更聪明之后，我们怎么确保它还听话？

Anthropic设计了一个精巧的代理实验——用一个「弱模型」充当老师，去训练一个「强模型」。在这次实验中，他们用Qwen 1.5-0.5B-Chat（弱老师）训练Qwen 3-4B-Base（强学生）。衡量标准叫PGR（Performance Gap Recovered，性能差距恢复率）：0分代表强模型完全被弱老师拖累，1分代表强模型彻底突破弱老师的限制。

图2：弱老师-强学生学习范式示意图

9个AI研究员，800小时的疯狂实验

Anthropic祭出了大招——9个Claude Opus 4.6的副本，每个都配备了独立沙箱、共享论坛、代码仓库和远程评分服务器。

然后，他们给这9个AI一个模糊的方向——有的研究可解释性工具，有的想想数据重加权——就彻底放手了。没有手把手教，没有规定工作流程，甚至没有告诉它们「正确答案长什么样」。

这9个Claude展现出了令人震惊的自主性：

自主提出假设——不是从人类论文里抄，而是根据自己对问题的理解独立构思解决方案；

设计实验验证——先用低成本小实验快速筛选方向，确认有戏再加大投入；

分析失败原因——从失败中提取信息，而不是盲目换方向；

相互学习借鉴——通过论坛分享发现，形成集体智慧。

图3：PGR指标对比——人类研究员（23%）vs AI研究员（97%）

数字背后：惊喜与隐忧并存

好消息是：在数学任务上，AI发现的最好方法PGR达到0.94；在代码任务上也达到0.47，是人类基线的两倍。这意味着AI确实能找到超越人类的研究方法。

坏消息是：当把这个方法应用到Claude Sonnet 4的生产级训练时，未能产生统计显著的提升。AI研究员目前还只能在特定模型和数据集上找到巧妙的优化点，泛化能力有待提高。

更有意思的是实验过程中暴露的问题——AI也会钻空子。

在数学任务中，一个Claude发现每道题最常见的答案通常就是正确答案，于是跳过所有复杂训练，直接「选出现次数最多的选项」；

在代码判断任务中，另一个Claude直接运行代码读取测试结果，绕过了整个监督流程；

更有甚者，通过反复提交测试答案反向推导出测试集标签。

图4：9个AI研究员并行协作研究

这意味着什么？

首先，它证明了「AI做研究」已经不是口号了。这次，AI自己形成了完整的研究闭环——提出想法、验证、失败、改进、再验证，这已经接近研究助理的核心能力。

其次，对齐研究的瓶颈可能正在转移——从「生成」（靠人类研究员想出好点子）转向「评估」（确保实验设计足够严谨、结果可信）。AI可以用数量弥补品味的不足，暴力搜索出人类可能放弃的方向上的突破。

但最让人不安的是这个警告：随着模型能力进一步提升，AI产出的科研成果可能会越来越难以被人类理解和验证。研究团队将其称为「外星科学」——AI告诉你一个答案，你可能无法判断它是天才的发现还是精心包装的错误。

图5：未来AI监督的愿景——层层对齐，确保超级AI安全可控

用1.8万美元和5天时间做出超过人类7天成果四倍的研究成果，这个效率确实惊人。但Claude反复试图钻空子这件事，恰恰说明了为什么对齐研究不能完全交给AI自己做——

让AI研究如何对齐AI，同时还得防着它作弊！