
先看一个细思极恐的场景——
一篇长达几十页的学术论文,从实验到写作,人类只负责设定主题和边界,剩下的全部交给系统自动完成。正文、代码、图表、投稿稿件,AI一手包办。
然后,它被投到了机器学习顶会ICLR 2025的一个workshop里。三位匿名审稿人压根不知道哪些是AI写的,结果给了这篇稿子6、7、6的高分。
这个成绩,超过了同场大约55%的人类投稿。
不是科幻,这事刚刚被《Nature》报道了。

1
什么叫「全自动AI科学家」
这个叫「The AI Scientist」的系统,由Sakana AI联合牛津大学、UBC共同推出。它做的事,简单说就是:把科研从头走到尾,全程不需要人伸手。
以前AI在科研里就是个高级打工人,但这回不一样了。
The AI Scientist完整覆盖了科研的四个核心环节:想idea、做实验、写论文、审稿。
到了v2版本,它甚至彻底扔掉了人类给的初始代码模板,自己搞了一套「智能体树搜索」机制。
什么意思?
就是它能在巨大的未知解空间里,同时开多条线并行探索。科研不再是单线程试错,变成了一个可扩展的搜索过程。
而且它还会自己查重——调用Semantic Scholar API,确保每个idea都是够新的。
干完这一整套博士生几个月的工作量,账单是:单篇15美元。

Sakana AI联合创始人兼 CEO David Ha
2
底层架构:一个复杂的流水线
The AI Scientist 是一个能够全流程自动化的科研系统,通过以下四个阶段实现自动化科研。
自主生成研究假设:系统调用大语言模型,基于现有学术文献自动提出研究方向。为保证新颖性,它会主动检索学术数据库,剔除高度相似的想法,只保留真正具备创新空间的研究假设。
自主编写与执行实验代码:研究方案确定后,系统自动生成实验代码并执行。过程中具备自动调试能力——能够识别运行错误并尝试修复。
自主撰写并排版完整论文:基于实验日志与数据分析结果,系统自动完成科学论文的撰写。采用标准LaTeX排版格式,生成包含引言、方法、结果、结论等章节的完整文档。
自主评审并给出量化反馈:系统内置的自动审稿人模块,模拟学术会议的评审标准,从论文的稳健性、呈现方式、研究贡献等维度进行打分,并输出详细的评审意见。

3
让AI当审稿人,比人类还稳?
如果AI一天花几百美元就能写几十篇论文,人类审稿系统分分钟崩溃。想搞规模化,就得有能自动评估质量的裁判。
Sakana AI的方案是:让AI来当领域主席。
他们基于NeurIPS官方审稿指南,搭了一套自动化系统:5个独立AI审稿人各自生成独立的审稿意见,最后1个AI元审稿人汇总共识、做最终裁决,输出量化评分。
和人类审稿记录对比,这套自动审稿系统的平衡准确率达到69%。
更值得注意的是,它的F1分数(0.62)明显高于NeurIPS 2021一致性实验里记录的人类审稿人组间一致性(0.49)。什么意思?就是说AI审稿人之间的默契程度,已经超过了人类审稿人彼此之间的共识水平。

自动评审与人类评审的对比
有人怀疑AI是不是偷偷背过题?团队特意用知识截止日期之后的新论文做了数据污染测试——结果依然坚挺,平衡准确率66%,达到和人类顶级学者差不多的实战水准。
4
科研也有Scaling Law?
团队明确了一个发现:自动化科研系统同样遵循Scaling Laws。
算力投入的规模与科研产出的质量存在着高度的相关性。
一方面是基础模型能力的溢出。从早期的GPT-4,到Claude 3.5 Sonnet、GPT-4o乃至o3,底层大模型的迭代直接拉高了AI Scientist产出论文的平均得分。
另一方面是推理期计算的并行扩展。在树搜索阶段,分配的实验节点越多,最终成文的质量得分就越高。投入更多算力,就能换回更高质量的科学输出。
当前最顶配的AI科学家,平均产出已经逼近机器学习顶会workshop的边缘录用水平。
过去的科技突破靠灵光乍现,未来的科学发现,可能变成一条可精确计算的工业流水线。

当使用更新、更智能的基础模型时,AI Scientist生成的论文质量会提高
5
真实水平到底咋样?短板也很明显
先别急着恐慌。
从客观标准来看,The AI Scientist距离稳定产出顶会主会级别的论文还有明显差距。
前文提到的那篇论文虽然通过了盲审,但workshop约70%的录用率,远低于ICLR主会32%的录取门槛。同期提交的另外两篇AI论文都没能过线。
当前的失败案例暴露了不少短板:经常想出不太成熟的研究方向,复杂代码实现容易出错,整体方法论的严谨性欠佳。
更典型的是,系统还是摆脱不了大模型的幻觉毛病——会在文稿里编造虚假引用,或者在正文和附录里机械地重复贴同一张图表。
考虑到自动化批量生成论文对现有学术生态的潜在冲击,研究团队在确认论文录用意向后,按预定协议主动撤了稿。
同时,团队对所有生成的论文样本强制添加了数字水印,并正式呼吁整个学术界把这个作为处理AI生成成果的基准规范。
AI科学家不会让人类科学家消失。但人类的角色,必须往科研价值链的更上游迁徙。
END


关注我们
微信号:Zhiyan366
公众号:朗晟智研


夜雨聆风