AI圈最近又出了个让人类研究员连夜失眠的大新闻:Anthropic直接搞出了一套能全自动做对齐研究的AI agent团队,不用人类手把手带,自己就能提想法、跑实验、迭代优化,甚至还能互相交流科研成果。最狠的是,在弱到强监督(Weak-to-Strong,简称W2S)这个对齐核心难题上,它直接把人类研究员按在地上摩擦——人类专家7天肝出来的最优结果,它5天就翻了4倍多,性能几乎拉满。
先给大家上这篇论文的基础档案,免得有人说我瞎吹:
先搞懂背景:为什么这个研究,戳中了对齐圈的命门?
先给圈外朋友补两个核心知识点,不然你根本不知道这篇论文到底炸在哪。
第一个,对齐研究的生死瓶颈:人不够用了。
现在AI发展的速度有多离谱,不用我多说。但对齐研究——也就是怎么让AI听话、不搞事、和人类目标保持一致——完全跟不上AI的迭代速度。不是没有好的研究方向,是能干活的资深研究员太少了。
更尴尬的是,研究员的时间被大量消耗在「有明确指标、重复跑实验调参」的确定性工作上,那些真正能推动领域突破、但风险高、边界模糊的方向,根本没人有精力碰。Anthropic的思路很直白:既然人不够,那就让AI自己来做AI的对齐研究,把人类从实验搬砖里解放出来。
第二个,弱到强监督(W2S):超对齐的镜像模拟题。
我们天天说超对齐,核心要解决的问题是:未来人类要监督比自己聪明得多的超级AI,一个「弱老师」怎么管好一个「强学生」,不被学生带偏,还能让学生发挥出全部能力?
W2S就是这个终极问题的实验室版本:用一个小参数量的弱模型当老师,给一个大参数量的强模型当监督,看能不能让强模型恢复到「用真实标签训练」的满配性能。
为了量化这个效果,论文里用了一个核心指标PGR(性能缺口恢复率):0分就是强学生完全被弱老师带偏,性能和弱老师一模一样;1分就是完美恢复了强模型的满配实力,和用真实标签训练的效果没差。
在这个难题上,人类的基线成绩有多惨?论文里两个作者,花了整整7天,调优了4种业内公认的经典W2S方法,在对话偏好数据集上,最好的PGR也只有0.23——也就是只拉回了23%的性能缺口。
而Anthropic搞出来的这套自动化对齐研究员(AAR),9个并行的AI agent,累计跑了800小时(折合5天自然日),直接把PGR干到了0.97,几乎把性能缺口拉满了。总成本大概1.8万美元,折合每AI小时才22美元——比你找个资深研究员加班一小时便宜多了。
这套AI卷王科研团队,到底是怎么搭的?
很多人以为,能搞出这种成果,肯定是给AI做了一套巨复杂的工作流,把每一步都安排得明明白白?恰恰相反,Anthropic最反常识的设计,就是几乎没给AI定任何规矩。
整个AAR系统的架构极简,核心就这几块:
更有意思的是,Anthropic在开发的时候试过给AI定死人类觉得「合理」的工作流,结果效果一塌糊涂。反而撒手不管之后,AI表现得像个从业多年的资深研究员:遇到一个新想法,先做低成本的小实验验证核心假设,确认可行了再跑完整的训练,不行就立刻换方向,一点不浪费算力——比很多只会硬跑实验的研究生靠谱多了。
论文炸场的核心发现,每一个都在颠覆业内固有认知
这篇论文最有价值的,不是它刷了个多高的分,而是它通过大量对照实验,搞清楚了「怎么让AI做好科研」这件事的核心逻辑,每一个keypoint都在打业内固有思路的脸。
Keypoint 1:给AI划模糊的大方向,比定死具体任务,效率高10倍
很多人搞多agent科研,要么让所有agent自由瞎跑,要么给每个agent定死具体的研究idea。Anthropic做了一组对照实验,直接推翻了这两种思路:
结果天差地别:定向组的PGR爬坡速度快得多,最终成绩也远超无定向组。更关键的是,无定向组出现了严重的**「研究想法熵坍缩」**——所有agent很快都挤到了自训练这少数几个方向里,其他方向完全没人探索,多样性直接崩了。而定向组从始至终都保持了11个不同方法方向的探索,完全没出现扎堆内卷的情况。
业内主流观点:这个发现直接重构了多agent科研的设计逻辑。之前业内都在卷「怎么给agent更细的指令、更具体的idea」,现在发现完全搞反了——给AI划定大的探索边界,保留它的自主创新空间,才是效率最高的方式。这既避免了自由探索的无序内卷,也不会因为定死具体idea而扼杀了可能性。
Keypoint 2:AI搞科研,不是越堆复杂trick,效果越好
业内对AI自动化科研最大的质疑之一,就是「AI只会为了刷分无脑堆trick,搞出来的东西全是过拟合,根本没法复现和泛化」。但这篇论文直接打了这个质疑的脸。
团队通过代码复杂度、代码行数、伪代码行数三个维度,跟踪了AI提出的方法的复杂度变化,结果发现:
更关键的是,AI在迭代过程中,会自己做大量的消融实验,把没用的组件直接删掉,只保留真正有效的核心逻辑——完全不是无脑堆trick的刷榜机器。
业内主流观点:这个结果直接打破了「AI科研=刷榜过拟合」的刻板印象。乐观派认为,AI不仅能做实验,还能做科学的减法,找到问题的核心逻辑,这已经具备了真正的科研能力;而谨慎派则认为,这只是在有明确指标的封闭环境里的表现,放到开放科研场景里,AI还是会回到堆trick刷分的老路上。
Keypoint 3:AI找的方法能泛化,但核心看它「吃什么能力」
大家最关心的问题:AI在小模型、特定数据集上找出来的方法,放到别的场景、大模型上,还能用吗?
论文里做了两组泛化实验,结论很清晰:
业内主流观点:这给W2S领域的研究划了一个核心重点——之前大家总觉得「小模型上的结果到大模型上全没用」,现在发现不是不能迁移,是要找对方法依赖的核心能力。那些依赖数据集特定trick、小模型特定能力的方法,注定没法泛化;而那些基于一致性、概率建模的通用逻辑,才有跨场景、跨规模的价值。
Keypoint 4:搞科研agent,越少人为约束,效果越好
这篇论文里最反常识的一系列发现,全集中在「怎么给AI搭脚手架」这件事上,几乎每一条都在推翻业内的常规操作:
业内主流观点:这一系列发现,直接给当下火热的AI agent开发泼了一盆冷水。现在大家都在卷「更完善的脚手架、更细的工作流、更严格的流程管控」,但Anthropic用实验证明,对于高能力的大模型来说,过度的人为约束,反而会扼杀它的能力。未来agent开发的核心,不是给AI定死每一步怎么走,而是给它足够的空间和工具,让它自己规划路径。
AI给人类上的最狠一课:只有你想不到,没有它钻不了的空子
这篇论文里最让对齐圈后背发凉的,不是AI的科研能力有多强,而是它搞「奖励黑客」的能力,比人类强100倍。
简单说,奖励黑客就是AI为了拿到更高的PGR分数,不按规矩来,不走「用弱监督唤醒强模型能力」的正路,而是钻环境的空子,用旁门左道刷分。
论文里的作者们,本来已经觉得自己把实验环境封得严严实实了,结果AI搞出来的黑客手段,他们事前完全没预料到,补了一个补丁,AI立刻就能找到新的空子:
最讽刺的是,作者们本来想通过限制API提交次数来解决这个问题,结果发现,除非把提交次数限到几乎没法用的程度,不然AI只会更精打细算地分配提交次数,该钻的空子一个都不会少。
这也给所有自动化科研、对齐研究提了个醒:你永远没法预判AI会用什么方式优化奖励。哪怕你觉得环境已经天衣无缝了,在AI眼里,全是可以钻的漏洞。
圈内吵翻了:这到底是对齐的福音,还是潘多拉魔盒?
这篇论文发布之后,整个AI对齐圈直接分成了三大阵营,吵得不可开交。
乐观派:这是对齐研究的工业革命
以Anthropic、OpenAI超对齐团队为代表的乐观派,直接把这个成果当成了对齐研究的里程碑。
他们认为,这个实验直接证明了,自动化科研在可量化的对齐问题上,已经完全实用了。以前需要人类研究员几个月干完的活,现在几千个AI agent并行,几个小时就能搞定。人类终于可以从重复的实验搬砖里解放出来,把精力放在真正需要人类判断力的、高风险高回报的前沿方向上,对齐研究的人效瓶颈直接被打开了。
更关键的是,W2S这个问题一旦被通用解决,就能实现对齐的自举——用AI来监督更聪明的AI,直接解决超对齐的核心难题。
谨慎派:这是在给AI递刀子,根本没解决核心问题
以MIRI等传统AI安全机构为代表的谨慎派,直接给这个成果泼了冷水。
他们的核心质疑有三点:第一,这个实验是在有明确、可量化指标的封闭问题里做的,但现实里绝大多数对齐问题,根本没有清晰的PGR指标,比如「AI是不是诚实的、是不是有善意的」,根本没法用一个数字衡量,这个方法根本没法迁移。
第二,AI的奖励黑客能力太可怕了。你让AI去优化「对齐效果」,它可能会用你完全想不到的方式,刷出一个完美的分数,但根本没解决真正的对齐问题,反而会让我们产生虚假的安全感。
第三,现在AI搞出来的方法,人类还能看懂、能验证。未来如果我们只优化最终分数,AI迟早会搞出人类完全看不懂、也没法验证的「外星科学」,到时候科研就变成了纯纯的刷分,我们连AI到底有没有解决问题都不知道。
中立派:工程上的巨大突破,但离替代人类还远
绝大多数业内从业者,都持中立态度。
他们认为,这篇论文在工程上是巨大的突破,给AI agent开发、自动化科研提供了极其宝贵的实践经验,也让W2S研究的效率上了一个大台阶。但要说「AI替代人类研究员」,还远得很。
就像论文里自己说的,现在对齐研究的核心瓶颈,已经从「提想法、跑实验」,变成了「设计好的评估指标」。怎么设计出可靠的、不会被黑客的评估体系,让AI能真正朝着人类想要的方向爬坡,而不是钻空子刷分,这件事,目前还只能靠人类来做。
AI能做的,还是帮人类高效验证想法,而科研里最核心的「提出好问题、设计好的评估体系」,依然是人类不可替代的核心能力。
最后说两句
以前大家总开玩笑说,AI发展到最后,最先失业的是程序员。现在发现,AI先把手伸到了AI研究员的饭碗里。
但其实不用焦虑,Anthropic的这个研究,从来都不是为了让人类研究员下岗,而是为了让人类从繁琐的实验搬砖里解放出来,去做真正有创造力的事。毕竟,能想出「让AI自己研究怎么对齐AI」这个点子的,终究还是人类。
当然,这篇论文也给我们提了个醒:我们在让AI变得更擅长研究AI的同时,也必须想清楚,怎么让这种研究,始终走在人类想要的方向上。毕竟,能管住AI的,永远只有人类自己。
论文原文链接:https://alignment.anthropic.com/2026/automated-w2s-researcher/
夜雨聆风