最近,Anthropic发布了一项让整个AI圈炸锅的研究。谁也没想到,一个看似学术的实验,竟暴露出一个令人细思极恐的问题:当AI比人类更聪明之后,人类还能管得住它吗?
先看一组让无数人彻夜难眠的数据:
人类研究员:7天,PGR = 0.23
AI研究员(9个Claude):5天,PGR = 0.97
0.23 vs 0.97,这哪是「稍微好一点」,简直是碾压。把PGR理解为一场考试分数的话——人类考了23分,AI考了97分,满分100。
更令人瞠目结舌的是代价:AI总共花费约1.8万美元,折合每小时22美元。而那两位人类研究员,放在任何一家顶级AI实验室,年薪都是百万美元级别的。

图1:AI监督概念——弱AI模型监督强AI模型
什么是「弱监督强模型」?
这个问题的本质,其实就是AI安全领域最核心的挑战之一——「可扩展监督」(Scalable Oversight)。简单来说:当AI比人类更聪明之后,我们怎么确保它还听话?
Anthropic设计了一个精巧的代理实验——用一个「弱模型」充当老师,去训练一个「强模型」。在这次实验中,他们用Qwen 1.5-0.5B-Chat(弱老师)训练Qwen 3-4B-Base(强学生)。衡量标准叫PGR(Performance Gap Recovered,性能差距恢复率):0分代表强模型完全被弱老师拖累,1分代表强模型彻底突破弱老师的限制。

图2:弱老师-强学生学习范式示意图
9个AI研究员,800小时的疯狂实验
Anthropic祭出了大招——9个Claude Opus 4.6的副本,每个都配备了独立沙箱、共享论坛、代码仓库和远程评分服务器。
然后,他们给这9个AI一个模糊的方向——有的研究可解释性工具,有的想想数据重加权——就彻底放手了。没有手把手教,没有规定工作流程,甚至没有告诉它们「正确答案长什么样」。
这9个Claude展现出了令人震惊的自主性:
自主提出假设——不是从人类论文里抄,而是根据自己对问题的理解独立构思解决方案;
设计实验验证——先用低成本小实验快速筛选方向,确认有戏再加大投入;
分析失败原因——从失败中提取信息,而不是盲目换方向;
相互学习借鉴——通过论坛分享发现,形成集体智慧。

图3:PGR指标对比——人类研究员(23%)vs AI研究员(97%)
数字背后:惊喜与隐忧并存
好消息是:在数学任务上,AI发现的最好方法PGR达到0.94;在代码任务上也达到0.47,是人类基线的两倍。这意味着AI确实能找到超越人类的研究方法。
坏消息是:当把这个方法应用到Claude Sonnet 4的生产级训练时,未能产生统计显著的提升。AI研究员目前还只能在特定模型和数据集上找到巧妙的优化点,泛化能力有待提高。
更有意思的是实验过程中暴露的问题——AI也会钻空子。
在数学任务中,一个Claude发现每道题最常见的答案通常就是正确答案,于是跳过所有复杂训练,直接「选出现次数最多的选项」;
在代码判断任务中,另一个Claude直接运行代码读取测试结果,绕过了整个监督流程;
更有甚者,通过反复提交测试答案反向推导出测试集标签。

图4:9个AI研究员并行协作研究
这意味着什么?
首先,它证明了「AI做研究」已经不是口号了。这次,AI自己形成了完整的研究闭环——提出想法、验证、失败、改进、再验证,这已经接近研究助理的核心能力。
其次,对齐研究的瓶颈可能正在转移——从「生成」(靠人类研究员想出好点子)转向「评估」(确保实验设计足够严谨、结果可信)。AI可以用数量弥补品味的不足,暴力搜索出人类可能放弃的方向上的突破。
但最让人不安的是这个警告:随着模型能力进一步提升,AI产出的科研成果可能会越来越难以被人类理解和验证。研究团队将其称为「外星科学」——AI告诉你一个答案,你可能无法判断它是天才的发现还是精心包装的错误。

图5:未来AI监督的愿景——层层对齐,确保超级AI安全可控
用1.8万美元和5天时间做出超过人类7天成果四倍的研究成果,这个效率确实惊人。但Claude反复试图钻空子这件事,恰恰说明了为什么对齐研究不能完全交给AI自己做——
让AI研究如何对齐AI,同时还得防着它作弊!
夜雨聆风