乐于分享
好东西不私藏

AI 开始批量生产论文了

AI 开始批量生产论文了

最近自动科研这条线,确实有点卷得离谱。

过去我们说 AI 辅助科研,通常指的是帮你查文献、润色论文、写代码、画图、整理实验结果。它更像一个科研助手,研究者仍然是主驾驶。可是从 The AI Scientist、AI Scientist-v2、ResearchAgent、Google AI co-scientist、EvoScientist,到最近的 PaperOrchestra,事情开始变味了:AI 不再只是帮你写几段文字,而是在试图接管科研流程里的一个个环节。

The AI Scientist

AI Scientist-v2

ResearchAgent

Google AI co-scientist

PaperOrchestra

有些技术变化刚出现时,看起来只是工具升级;但它真正改变的,是一个行业的生产关系。

AI 写论文就是这样的变化。

最开始,我们以为它只是帮研究者润色英文、改改摘要、补几段 related work。后来,它开始帮你读文献、写代码、跑实验、做图表。再往后,The AI Scientist 这类系统已经可以从 idea 生成、代码实现、实验执行、结果可视化,到论文撰写和模拟评审跑完整流程。Sakana AI 在 The AI Scientist 中把它描述为一个面向开放式科学发现的全自动框架,能够生成研究想法、写代码、运行实验、可视化结果、写成论文,并进行模拟评审。

到了 PaperOrchestra,事情又往前拧了一下。

它没有直接宣称“我要替代科学家”,而是选了一个更现实、也更扎心的切口:论文成稿。

很多研究者都知道,科研最累人的地方不一定是最初的灵感,而是把一个已经做完的实验,整理成一篇能投出去的论文。实验日志是散的,消融结果是乱的,图表还没画,related work 需要补,LaTeX 模板要对齐,引用要核,方法要讲清楚,故事线要重新编排。真正写过论文的人都知道,一项研究从“有结果”到“能投稿”,中间隔着一条很长、很烦、很消耗意志力的河。

PaperOrchestra 盯上的,正是这条河。

PaperOrchestra 是 Google Cloud AI Research 提出的多智能体自动论文写作框架。它把 idea summary、raw experimental logs、venue-specific LaTeX templates 这类松散的 pre-writing materials,转化为 submission-ready LaTeX manuscripts,并自动生成文献综述、统计图和概念示意图。它还构建了 PaperWritingBench,从 200 篇顶级 AI 会议论文中反向构造原始写作材料,用来标准化评估 AI 写论文的能力。

这意味着,AI 不再只是帮你写一句话,而是在接管论文生产链条中的“最后一公里”。

而这最后一公里,恰恰是过去科研系统里最依赖人类手工劳动的部分。

从科研助手到科研流水线

过去我们谈 AI for Science,更多指的是 AI 帮助科学家做局部工作。比如 AlphaFold 帮助预测蛋白结构,AI co-scientist 帮助科学家生成新假设和研究 proposal,文献工具帮助读论文,代码助手帮助写实验脚本。Google Research 在介绍 AI co-scientist 时,也明确把它定位为基于 Gemini 2.0 的虚拟科学合作者,用于帮助科学家生成新假设和研究 proposal,加速科学与生物医学发现。

但现在的自动科研系统,已经开始不是“工具”那么简单。

The AI Scientist 做的是从 idea 到论文的端到端自动化;AI Scientist-v2 进一步引入 agentic tree search 和 experiment manager agent,去掉对人工代码模板的依赖,并声称已有 AI 生成论文通过了 ICLR workshop 的同行评审门槛。

FARS 更直接,把自己定义为 Fully Automated Research System。它由 Ideation、Planning、Experiment 和 Writing 四类 agent 组成,目标是自动生成假设、规划实验、运行实验并产出论文。官方介绍甚至提到,它希望公开连续运行,产出 100 篇完整研究论文,以暴露自动科研系统在规模化生产时的真实质量分布。(Analemma AI)

EvoScientist

EvoScientist 则把重点放在“进化”上。它认为现有 AI scientist 系统大多是静态手工 pipeline,容易重复失败实验、忽略有潜力方向、追逐不可行 idea。因此它引入 persistent memory 和 self-evolution,让 Researcher Agent、Engineer Agent 和 Evolution Manager Agent 在过去交互中积累可复用知识,提高 idea 质量和代码执行成功率。

这几条线合在一起看,自动科研正在变成一条流水线。

一个 agent 负责读文献,一个 agent 负责想 idea,一个 agent 负责写代码,一个 agent 负责跑实验,一个 agent 负责画图,一个 agent 负责写论文,一个 agent 负责模拟审稿。过去集中在一个研究者脑子里的科研过程,正在被拆成可调用、可替换、可扩展的模块。

PaperOrchestra 的特殊之处在于,它没有试图包办整个科学发现,而是专攻论文写作这一段。这个切口反而更现实。因为真正的科研发现仍然很难自动化,但把已有材料组织成一篇格式完整、引用扎实、图表齐全、逻辑自洽的论文,已经非常接近 AI 当前能力边界。

这也是它可怕的地方。

它不是在演示一个遥远未来,而是在自动化今天研究者每天都在做的苦活。

PaperOrchestra 狠在细节

自动写论文系统最容易做成“像论文的废话生成器”。标题像论文,摘要像论文,related work 像论文,但引用是编的,图是糊的,方法讲不清,实验对不上,结论空泛,稍微一查就露馅。

PaperOrchestra 的设计比较聪明,它没有让一个大模型从头写到尾,而是把论文写作拆成多智能体协作。项目页介绍,它包含 Outline Agent、Plotting Agent、Literature Review Agent、Section Writing Agent 和 Content Refinement Agent 等模块,分别负责结构规划、图表生成、文献综述、正文写作和基于模拟评审反馈的迭代 refinement。

这里最值得注意的是三点。

首先是引用。

很多 AI 写论文工具最大的问题,是 related work 看起来热闹,实际上引用不可靠。PaperOrchestra 专门强调 literature review,它通过 targeted web search 发现候选论文,再利用 Semantic Scholar API 进行引用真实性和相关性校验。项目页明确把 API-grounded citations 作为其文献综述能力的一部分。

这不是小细节。科研论文里的引用不是装饰,而是研究合法性的地基。引用错了,说明系统连自己站在哪条知识链上都没搞清楚。PaperOrchestra 把 citation verification 单独做成系统能力,说明它真正理解论文写作的风险点。

其次是图。

科研写作不只是写文字。很多论文真正打动审稿人的,是方法图、实验图、消融表、流程图和概念示意图。PaperOrchestra 会自动生成统计图和概念图,这一部分还和 PaperBanana 这类自动学术插图系统形成呼应。PaperBanana 论文的目标正是自动生成 publication-ready academic illustrations,因为学术插图长期是科研工作流中的高耗时瓶颈。

第三是自我评审。

PaperOrchestra 不是一次性写完就结束,而是引入 simulated peer-review feedback 做 refinement。论文摘要显示,在人类 side-by-side evaluation 中,它相对自动化 baseline,在 literature review quality 上获得 50%–68% 的绝对胜率优势,在 overall manuscript quality 上获得 14%–38% 的绝对胜率优势。

这些数字不能被理解成“AI 已经超过人类论文写作”。更准确地说,它说明在自动论文写作系统之间,模块化、多智能体、带引用验证和图表生成的系统,确实比粗暴让模型直接写论文强很多。

也就是说,论文写作正在从 prompt 技巧,变成系统工程。

论文生产会变便宜,但科学不会

这里必须冷静一点。

PaperOrchestra 很强,但它主要解决的是“把研究材料写成论文”,不是“保证研究本身成立”。它输入的是 idea summary、experimental logs 和 LaTeX template。换句话说,研究的前置内容仍然需要存在。它可以帮你组织、表达、引用、画图和修稿,但它不能自动保证实验设计公平、结论可靠、idea 真有贡献。

这就是“自动写论文”和“自动科学发现”的区别。

论文可以是科学的载体,但论文不是科学本身。科学真正困难的地方,在于提出有价值的问题,设计能区分假设的实验,排除混杂变量,理解负结果,判断一个提升是否有意义,知道哪些 claim 不能写过头。AI 可以把结果包装成论文,但包装不等于贡献。

OpenAI 的 PaperBench 就给了一个很好的现实校准。PaperBench 评估 AI agents 从零复现 20 篇 ICML 2024 Spotlight 和 Oral 论文的能力,任务包括理解论文贡献、开发代码库、执行实验,并通过层级 rubric 评分。论文摘要显示,即使表现最好的 agent,在平均 replication score 上也只有 21.0%,尚未超过顶尖 ML PhD 人类基线。

这说明,当任务从“写出像论文的文本”变成“真正复现和验证研究贡献”,难度立刻上升。

所以,对 PaperOrchestra 最准确的评价不是“Google 一键替代科研”,而是:它把科研生产中最可流程化、最耗时、最格式化的一段,向自动化推进了一大步。

这已经足够重要。

因为论文写作的成本一旦下降,整个学术系统都会被影响。

真正危险的不是假论文,而是平庸论文泛滥

很多人一谈 AI 写论文,就立刻想到学术造假:虚构数据、编造引用、AI 代写、批量灌水。这些当然是风险,但我觉得更深的风险不是“全假论文”,而是“平庸论文产能暴涨”。

未来的 AI 辅助论文,未必都是假的。它们可能有真实实验,有真实引用,有真实代码,有正常图表,也通过了基本格式检查。但它们可能只是微小改动、指标小涨、套路组合、缺乏洞察。它们看起来像论文,也确实符合论文格式,却没有太多知识增量。

这类论文最难处理。

假论文可以被查,幻觉引用可以被核,伪造数据可以被追责;但平庸论文会淹没审稿系统。它们不一定违规,却会消耗 reviewer 时间,拉低学术信噪比,让真正有想法的工作被埋在海量格式完整的稿件中。

这就是自动科研对学术共同体真正的冲击。

过去,论文写作能力、文献整理能力、LaTeX 能力、英文表达能力,本身就是学术生产的一部分隐性门槛。这个门槛并不总是公平,但它确实限制了论文产量。现在,AI 正在降低这道门槛。门槛下降以后,真正稀缺的就不再是“能不能写成论文”,而是“有没有值得写成论文的东西”。

这会迫使学术评价发生变化。

当每个人都能写出结构完整、图表齐全、related work 扎实的论文,审稿人就不能再被形式感打动。未来真正重要的会是代码是否可复现,实验是否公平,数据是否真实,负结果是否诚实,claim 是否克制,方法是否有不可替代性,问题本身是否值得做。

换句话说,AI 会让论文变得更像工业品。

但科学不能只靠工业品维持。

科研者会从“写论文的人”变成“研究系统导演”

如果自动科研继续发展,研究者不会马上消失,但研究者的工作会被重构。

过去,一个研究者需要亲自完成大量执行性劳动:查文献、整理引用、写 related work、调格式、画图、改表格、补 appendix、写 rebuttal。这些工作很耗时间,也确实锻炼能力,但它们不总是科研中最有创造性的部分。

未来,这些低层劳动会逐渐交给 agent。研究者更像一个 research director,负责设定问题、判断方向、设计验证、审查结果、控制风险、决定哪些结论能写,哪些结论不能写。

这不是“人被 AI 替代”,而是“人的位置上移”。

但位置上移并不意味着轻松。相反,它要求研究者有更强的判断力。

因为 AI 会产出更多 idea、更多实验、更多图表、更多论文草稿。你需要知道哪些是噪声,哪些是幻觉,哪些只是指标偶然上涨,哪些实验没有控制变量,哪些结论只是漂亮叙事。你还要知道什么时候该停止,什么时候该补实验,什么时候该承认失败。

不会用 AI 的研究者,效率会吃亏。

但只会让 AI 批量生产论文、自己没有判断力的研究者,也会很快陷入平庸产出的泥潭。

未来真正强的研究者,不是拒绝 AI 的人,也不是盲目依赖 AI 的人,而是能把 AI 组织成科研流水线,同时仍然牢牢掌握问题、证据和责任的人。

自动科研的边界:AI 能加速研究,但不能替代责任

自动科研系统越强,责任问题越重要。

一篇 PaperOrchestra 生成的论文,如果引用错了,谁负责?如果实验日志本身有问题,系统把它包装成漂亮结论,谁负责?如果 simulated reviewer 没发现关键漏洞,人类作者能不能说“这是 AI 写的”?如果 AI Scientist 生成了一个看似有效但不可复现的结果,算谁的研究?

这些问题不是伦理作文,而是马上会发生的现实问题。

AI 参与科研越深,学术共同体越需要新的披露规范。哪些部分由 AI 生成,哪些实验由 AI 自动执行,哪些引用由系统检索,哪些图表由模型生成,哪些文字经过人类审查,哪些结论由人类承担责任,都需要更清晰地写出来。

否则,自动科研会制造一种危险错觉:论文看起来越来越完整,但责任链越来越模糊。

这也是为什么我更愿意把 PaperOrchestra 看成“高级科研写作基础设施”,而不是“全自动科学家”。它可以极大提高论文成稿效率,可以降低写作负担,可以帮助研究者更快组织材料,但它不能替代科学判断,也不能替代作者责任。

科学不是只要有论文就成立。

科学成立,需要证据,需要验证,需要可复现,需要共同体审查,也需要有人为结论负责。

全自动科研不是终点,而是科研生产方式的重构

PaperOrchestra 的出现,说明自动科研已经不再只是一个概念,而是开始切入真实科研工作流中的具体痛点。

The AI Scientist 尝试端到端科学发现,AI Scientist-v2 推进到 workshop-level 自动论文,Google AI co-scientist 聚焦科学假设和 proposal,FARS 试图直播式规模化自动产出研究,EvoScientist 引入持续记忆和自我进化,PaperBench 用复现任务给 AI agent 降温,而 PaperOrchestra 则把实验日志到投稿论文这段流程系统化。

这些东西合起来,不是一个单点新闻,而是一条趋势:

科研正在被 agent 化。

过去,科研像手工作坊。一个研究者或一个小团队,从想法到实验到论文,靠经验、直觉和大量手工劳动推进。未来,科研会越来越像一个可编排系统:idea 可以批量生成,实验可以自动执行,代码可以自动修改,图表可以自动生成,论文可以自动成稿,评审可以模拟,失败经验可以进入记忆,下一轮继续优化。

这会带来效率提升,也会带来噪声爆炸。

它会让优秀研究者释放大量时间,也会让平庸研究者批量生产“像论文的东西”。

它会让科研门槛降低,也会让学术评价压力增大。

它会让知识生产更快,也会让知识验证更重要。

所以,未来科研真正的瓶颈,可能不再是写不出论文,而是验证不过来;不再是缺少 idea,而是缺少判断;不再是缺少产出,而是缺少信号。

AI 可以一键写论文,但不能一键创造科学

PaperOrchestra 的震撼之处,不是它让 AI 会写论文,而是它让我们看到:论文这种曾经高度依赖人类手工组织的学术产品,正在被拆解成一个可自动化的多智能体流程。

这一定会改变科研。

以后,把实验日志整理成 LaTeX,查 citation,写 related work,生成方法图,排版成 PDF,模拟 reviewer feedback,都会越来越便宜。论文的形式成本会下降,科研表达会加速,更多人会更快把自己的结果写出来。

但这并不意味着科学变简单了。

恰恰相反,当论文变得越来越容易生成,真正困难的东西会更加突出:什么问题值得研究,什么实验真正说明问题,什么结果只是偶然,什么结论不能写,什么发现值得共同体认真对待。

未来最危险的研究者,不是会用 AI 写论文的人。

而是没有判断力,却能无限生成论文的人。

未来最强的研究者,也不是拒绝 AI 的人。

而是能把 AI 变成科研流水线,同时仍然牢牢掌握问题、证据、验证和责任的人。

AI 可以把论文变成工业品。

但科学,仍然必须经得起时间、证据和共同体的检验。

参考:

https://arxiv.org/pdf/2408.06292

https://arxiv.org/pdf/2504.08066

https://arxiv.org/pdf/2603.08127

https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/

https://arxiv.org/pdf/2604.05018

https://www.marktechpost.com/2026/04/08/google-ai-research-introduces-paperorchestra-a-multi-agent-framework-for-automated-ai-research-paper-writing/?utm_source=chatgpt.com