AI写的论文,在顶会赢了55%的人类?Nature最新实验

点击蓝字，关注我们

先看一个细思极恐的场景——

一篇长达几十页的学术论文，从实验到写作，人类只负责设定主题和边界，剩下的全部交给系统自动完成。正文、代码、图表、投稿稿件，AI一手包办。

然后，它被投到了机器学习顶会ICLR 2025的一个workshop里。三位匿名审稿人压根不知道哪些是AI写的，结果给了这篇稿子6、7、6的高分。

这个成绩，超过了同场大约55%的人类投稿。

不是科幻，这事刚刚被《Nature》报道了。

什么叫「全自动AI科学家」

这个叫「The AI Scientist」的系统，由Sakana AI联合牛津大学、UBC共同推出。它做的事，简单说就是：把科研从头走到尾，全程不需要人伸手。

以前AI在科研里就是个高级打工人，但这回不一样了。

The AI Scientist完整覆盖了科研的四个核心环节：想idea、做实验、写论文、审稿。

到了v2版本，它甚至彻底扔掉了人类给的初始代码模板，自己搞了一套「智能体树搜索」机制。

什么意思？

就是它能在巨大的未知解空间里，同时开多条线并行探索。科研不再是单线程试错，变成了一个可扩展的搜索过程。

而且它还会自己查重——调用Semantic Scholar API，确保每个idea都是够新的。

干完这一整套博士生几个月的工作量，账单是：单篇15美元。

Sakana AI联合创始人兼 CEO David Ha

底层架构：一个复杂的流水线

The AI Scientist 是一个能够全流程自动化的科研系统，通过以下四个阶段实现自动化科研。

自主生成研究假设：系统调用大语言模型，基于现有学术文献自动提出研究方向。为保证新颖性，它会主动检索学术数据库，剔除高度相似的想法，只保留真正具备创新空间的研究假设。

自主编写与执行实验代码：研究方案确定后，系统自动生成实验代码并执行。过程中具备自动调试能力——能够识别运行错误并尝试修复。

自主撰写并排版完整论文：基于实验日志与数据分析结果，系统自动完成科学论文的撰写。采用标准LaTeX排版格式，生成包含引言、方法、结果、结论等章节的完整文档。

自主评审并给出量化反馈：系统内置的自动审稿人模块，模拟学术会议的评审标准，从论文的稳健性、呈现方式、研究贡献等维度进行打分，并输出详细的评审意见。

让AI当审稿人，比人类还稳？

如果AI一天花几百美元就能写几十篇论文，人类审稿系统分分钟崩溃。想搞规模化，就得有能自动评估质量的裁判。

Sakana AI的方案是：让AI来当领域主席。

他们基于NeurIPS官方审稿指南，搭了一套自动化系统：5个独立AI审稿人各自生成独立的审稿意见，最后1个AI元审稿人汇总共识、做最终裁决，输出量化评分。

和人类审稿记录对比，这套自动审稿系统的平衡准确率达到69%。

更值得注意的是，它的F1分数（0.62）明显高于NeurIPS 2021一致性实验里记录的人类审稿人组间一致性（0.49）。什么意思？就是说AI审稿人之间的默契程度，已经超过了人类审稿人彼此之间的共识水平。

自动评审与人类评审的对比

有人怀疑AI是不是偷偷背过题？团队特意用知识截止日期之后的新论文做了数据污染测试——结果依然坚挺，平衡准确率66%，达到和人类顶级学者差不多的实战水准。

科研也有Scaling Law？

团队明确了一个发现：自动化科研系统同样遵循Scaling Laws。

算力投入的规模与科研产出的质量存在着高度的相关性。

一方面是基础模型能力的溢出。从早期的GPT-4，到Claude 3.5 Sonnet、GPT-4o乃至o3，底层大模型的迭代直接拉高了AI Scientist产出论文的平均得分。

另一方面是推理期计算的并行扩展。在树搜索阶段，分配的实验节点越多，最终成文的质量得分就越高。投入更多算力，就能换回更高质量的科学输出。

当前最顶配的AI科学家，平均产出已经逼近机器学习顶会workshop的边缘录用水平。

过去的科技突破靠灵光乍现，未来的科学发现，可能变成一条可精确计算的工业流水线。

当使用更新、更智能的基础模型时，AI Scientist生成的论文质量会提高

真实水平到底咋样？短板也很明显

先别急着恐慌。

从客观标准来看，The AI Scientist距离稳定产出顶会主会级别的论文还有明显差距。

前文提到的那篇论文虽然通过了盲审，但workshop约70%的录用率，远低于ICLR主会32%的录取门槛。同期提交的另外两篇AI论文都没能过线。

当前的失败案例暴露了不少短板：经常想出不太成熟的研究方向，复杂代码实现容易出错，整体方法论的严谨性欠佳。

更典型的是，系统还是摆脱不了大模型的幻觉毛病——会在文稿里编造虚假引用，或者在正文和附录里机械地重复贴同一张图表。

考虑到自动化批量生成论文对现有学术生态的潜在冲击，研究团队在确认论文录用意向后，按预定协议主动撤了稿。

同时，团队对所有生成的论文样本强制添加了数字水印，并正式呼吁整个学术界把这个作为处理AI生成成果的基准规范。

AI科学家不会让人类科学家消失。但人类的角色，必须往科研价值链的更上游迁徙。

END

关注我们

微信号：Zhiyan366

公众号：朗晟智研